清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春运2025丨X月X日,全社会跨区域人员流动量完 成X万人次”的网址进行去重、筛选,合并成网址列表 2.撰写python脚本,基于步骤1输出的网址列表提取所有网 址内容“截至目前 量、公路人员流动量、水路客运量、民航客运量等)”完 成数据提取并写入文件“2025春运数据.txt” Open AI o3mini 响应速度快,能够高效提 取所有需求链接,输出完 整可运行python脚本,代 码运行后生成文件,但数 据采集结果为空。 DeepSeek R1 能够提取所有网址并进行 筛选、去重,所撰写代码 运行后完成数据爬虫任务, 所获取数据准确,少量数 据有所遗漏。0 码力 | 85 页 | 8.31 MB | 8 月前3
Kubernetes Operator 实践 - MySQL容器化信息流广告 搜索广告 品牌广告 代理商 广告主 技术体系 CRM 广告平台 物料展现 审核平台 大数据平台 基础架构 Golang C++ JavaScript Java Python 质量要求高 业务响应快 故障恢复快 Cluster1 搜狗商业平台业务系统 搜索推广 信息流 品牌 BizNginx (Load Balancer) Kafka Zookeeper Kubernetes 1.7 之后增加了 CRD 自定义资源 • 二次开发扩展 Kubernetes API CRD 的基本原理 ① 观察资源的当前状态 ② 分析当前状态与期望状态的差别 ③ 调用 API 消除差别 TestCluster app=test app=test 申请扩容 期望副本数:3 当前副本数:1 VS app=test 增加2个副本 当前副本数:3 Controller 扩缩容 • 扩容:直接执行 • 缩容:集群 master 是谁? 判断条件: 缩容操作且 master 为 sts 最后一个 pod operator 执行 sts 扩缩容 判断 调用 mha 切主 否 是 pod 都正常运行? 重新调度 mha MGR 高可用简介 • 多主和单主两种工作模式 • MGR 只支持 InnoDB 引擎 • 开启 GTID,ROW 模式0 码力 | 42 页 | 4.77 MB | 1 年前3
清华大学 DeepSeek 从入门到精通分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 与 注 释 生成 常规绘图 如何使用DeepSeek? 网页端:https://chat.deepseek.com APP:DeepSeek 题,需分步验证结果)。 从“下达指令”到“表达需求” 策略类型 定义与目标 适用场景 示例(推理模型适用) 优势与风险 指令驱动 直接给出明确步骤或 格式要求 简单任务、需快速执行 “用Python编写快速排序函 数,输出需包含注释。” ✅ 结果精准高效 ❌ 限制模型自主优化空 间 需求导向 描述问题背景与目标, 由模型规划解决路径 复杂问题、需模型自主 推理 “我需要优化用户登录流程, 过度约束逻辑(如“按时间顺序列出”) 通用模型 需明确约束目标,避免自由发挥 “写一个包含‘量子’和‘沙漠’ 的短篇小说,不超过200字” 开放式指令(如“自由创作”) 代码生成 推理模型 简洁需求,信任模型逻辑 “用Python实现快速排序” 分步指导(如“先写递归函数”) 通用模型 细化步骤,明确输入输出格式 “先解释快速排序原理,再写出代 码并测试示例” 模糊需求(如“写个排序代码”) 多轮对话 通用模型0 码力 | 103 页 | 5.40 MB | 9 月前3
消息中间件RocketMQ原理解析 - 斩秋................ 49 1. invokeSyncImpl 同步调用实现 .................................................................................. 49 2. invokeAsyncImpl 异步调用实现 ........................................ 息来实现事物消费 调回调接口消费消息,返回状态对象 ConsumeOrderlyStatus 根据消费状态,处理结果 1) 非事物方式,自动提交 消息消息状态为 success: 调用 processQueue.commit 方法 获取 msgTreeMapTemp 的最后一个 key,表示提交的 offset 清空 msgTreeMapTemp 的消息,已经成功消费 象 List 表示升序排列,前面讲到文件名即 是消息在此文件的中初始偏移量,排好序后组成了一个连续的消息队 当消息到达 broker 时,需要获取最新的 MapedFile 写入数据,调用 MapedFileQueue 的 getLastMapedFile 获取,此函数如果集合中一个也没有创建一个,如果最后一个写满了也创 建一个新的。 MapedFileQueue 在获取 getLastMapedFile0 码力 | 57 页 | 2.39 MB | 1 年前3
RocketMQ v3.2.4 开发指南对象注册一个 Listener 接口,一旦收到消息,Consumer 对象立 刻回调 Listener 接口方法。 Pull Consumer Consumer 的一种,应用通常主劢调用 Consumer 的拉消息方法从 Broker 拉消息,主劢权由应用控制。 Producer Group 一类 Producer 的集合名称,返类 Producer 通常収送一类消息,丏収送逡辑一致。 也就是说消费消息要做到幂等性。RocketMQ 虽然丌能严格保证丌重复,但是正常情冴下很少会出现重复収送、消 费情冴,只有网络异常,Consumer 启停等异常情冴下会出现消息重复。 此问题的本质原因是网络调用存在丌确定性,即既丌成功也丌失败的第三种状态,所以才产生了消息重复性问 题。 4.10 Broker 的 Buffer 满了怎么办? Broker 的 Buffer 通常挃的是 Broker 6 RocketMQ 存储特点 6.1 零拷贝原理 Consumer 消费消息过程,使用了零拷贝,零拷贝包含以下两种方式 1. 使用 mmap + write 方式 优点:即使频繁调用,使用小块文件传输,效率也很高 缺点:丌能很好的利用 DMA 方式,会比 sendfile 多消耗 CPU,内存安全性控制复杂,需要避免 JVM Crash 问题。 2. 使用 sendfile0 码力 | 52 页 | 1.61 MB | 1 年前3
Ubuntu 桌面培训 2010使您能够很方便地将公式创建为文档中的对象。任何时候您都可以 在文档中调用 Math 来插入等式或方程。Math 提供了大量预设的符号和函数,您 可以根据需要来用它们创建,编辑和设计公式。 206 使用 OpenOffice.org 公式 目录 Lucid Lynx • 直接输入一个公式如果您非常熟悉 Math 所使用的标记语言,您也可以在文档中直 接输入,然后调用 Math 来将标记语言转换为公式。 • 在命 建模、动画制作和后 期效果制作,也可以作为一款图形编辑器,在无需编程的环境下定义互动行 为。Blender 有一个独特的用户界面,它完全在 OpenGL 下实现且优化了运行速 度。Blender 中可以使用 Python 脚本绑定,并针对常用的文件格式实现了导 入/导出功能,例如 3D Studio。Blender 还可以生成图像、动画和模型,供给游 戏或其他第三方引擎使用,它以独立的二进制文件或网页插件的形式提供互动内 http://forum.ubuntu.org.cn/viewtopic.php?t=278753 下 载 id2ape, 使 用 命令: python id2ape -e GBK */*.mp3 将 ID3v2 编码转换为 UTF8 后,写入 APEv2 标签。以上两种方法,需要安装 python-mutagen 推荐上边的第一种,即设置环境变量的方法。 XI.V 硬件及系统备份 XI.V.I 如何查看硬件信息?0 码力 | 540 页 | 26.26 MB | 1 年前3
JavaScript 正则表达式迷你书 老姚 - v1.1console.log( regex.test("ababc"), regex.lastIndex ); // => true 1 // => true 3 // => false 0 注意上面代码中的第三次调用 test,因为这一次尝试匹配,开始从下标 lastIndex,即 3 位置处开始查 找,自然就找不到了。 如果没有 g,自然都是从字符串第 0 个字符处开始尝试匹配: var regex =0 码力 | 89 页 | 3.42 MB | 11 月前3
JavaScript 正则表达式迷你书 老姚 - v1.0console.log( regex.test("ababc"), regex.lastIndex ); // => true 1 // => true 3 // => false 0 注意上面代码中的第三次调用 test,因为这一次尝试匹配,开始从下标 lastIndex,即 3 位置处开始查 找,自然就找不到了。 如果没有 g,自然都是从字符串第 0 个字符处开始尝试匹配: var regex =0 码力 | 89 页 | 3.42 MB | 11 月前3
强大的音视频处理工具: FFmpeg字幕处理 背景知识 字幕分类 字幕格式 编辑字幕 Aegisub 提取字幕 转换字幕 嵌⼊字幕 指定字幕位置 指定字幕⽂字属性 ffmpeg使⽤⼼得 ⽤到ffmpeg的 Python 附录 获取 2 1.9.1 1.9.2 1.9.3 help语法 ⽂档 参考资料 获取 3 强⼤的⾳视频处理⼯具:FFmpeg 最新版本: v1.0 更新时间: 字幕;嵌⼊字幕,包括⽤流拷⻉模式嵌⼊软字幕、⽤vf模式烧录嵌⼊硬字 幕、且可以指定字幕位置、指定字幕⽂字属性等;整理ffmpeg使⽤的⼼得 和常⻅问题;以及其他有哪些⼯具软件⽤到了ffmpeg、如何⽤Python调⽤ ffmpeg;最后给出附录内容,包括help语法、⽂档资料等。 源码+浏览+下载 本书的各种源码、在线浏览地址、多种格式⽂件下载如下: Gitbook源码 crifan/media_process_ffmpeg: ffmpeg -i subtitle.srt subtitle.ass 另外还有: ffmpeg 被其他⼯具调⽤:⽤于解析和操作⾳视频 Python的⾳频处理库: pydub https://github.com/jiaaro/pydub Python的⾳频解析库: audioread https://github.com/beetbox/audioread crifan.com,使⽤署名40 码力 | 73 页 | 11.57 MB | 1 年前3
共 9 条
- 1













