清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 于客户细分、信用评分、社交媒体营销、股价预测等。 将数据转化为统计图、热力图、网络关系图、词云、树形 图等,用于揭示数据中蕴含的模式、趋势、异常和洞见。 本质:以多agent实现从数据采集到可视全流程 模型特点 Claude 3.5 sonnet 平衡性能:在模型大小和 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春运2025丨X月X日,全社会跨区域人员流动量完 成X万人次”的网址进行去重、筛选,合并成网址列表0 码力 | 85 页 | 8.31 MB | 8 月前3
RocketMQ v3.2.4 开发指南....... 46 项目开源主页:https://github.com/alibaba/RocketMQ 1 1 前言 本文档旨在描述 RocketMQ 的多个关键特性的实现原理,幵对消息中间件遇到的各种问题迕行总结,阐述 RocketMQ 如何解决返些问题。文中主要引用了 JMS 规范不 CORBA Notification 规范,规范为我们设计系统挃明了 方吐, 要有一台机器丌可用,则整个集群都丌可用,服务可用性大大降低。 如果服务器部署为同步双写模式,此缺陷可通过备机自劢切换为主避免,丌过仍然会存在几分钟的服务丌 可用。(依赖同步双写,主备自劢切换,自劢切换功能目前迓未实现) 目前已知的应用只有数据库 binlog 同步强依赖严格顺序消息,其他应用绝大部分都可以容忍短暂乱序,推 荐使用普通的顺序消息。 Message Queue 项目开源主页:https://github 优兇级排序,令优兇级高的兇投递。 由亍 RocketMQ 所有消息都是持丽化的,所以如果挄照优兇级来排序,开销会非常大,因此 RocketMQ 没有特 意支持消息优兇级,但是可以通过发通的方式实现类似功能,即单独配置一个优兇级高的队列,和一个普通优兇级 的队列, 将丌同优兇级収送到丌同队列即可。 对亍优兇级问题,可以归纳为 2 类 1) 只要达到优兇级目的即可,丌是严格意丿上的优0 码力 | 52 页 | 1.61 MB | 1 年前3
清华大学 DeepSeek 从入门到精通商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断0 码力 | 103 页 | 5.40 MB | 8 月前3
JavaScript 正则表达式迷你书 老姚 - v1.1log( regex.test("hello") ); // => true 正则表达式之所以强大,是因为其能实现模糊匹配。 而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊。 1.1.1. 横向模糊匹配 横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的。 其实现的方式是使用量词。譬如 {m,n},表示连续出现最少 m 次,最多 n 次。 比如正则 /ab{2,5}c/ 是“第一个” 。g 是单词 global 的首字母。 1.1.2. 纵向模糊匹配 纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种 可能。 其实现的方式是使用字符组。譬如 [abc],表示该字符是可以字符 "a"、"b"、"c" 中的任何一个。 比如 /a[123]b/ 可以匹配如下三种字符串: "a1b"、"a2b"、"a3b"。 其可视化形式如下: | 第 9 页 通过在量词后面加个问号就能实现惰性匹配,因此所有惰性匹配情形如下: 惰性量词 贪婪量词 {m,n}? {m,n} {m,}? {m,} ?? ? +? + *? * TIP 对惰性匹配的记忆方式是:量词后面加个问号,问一问你知足了吗,你很贪婪吗? 以上惰性量词对应的可视化形式是: 1.4. 多选分支 一个模式可以实现横向和纵向模糊匹配。而多选分支可以支持多个子模式任选其一。0 码力 | 89 页 | 3.42 MB | 11 月前3
JavaScript 正则表达式迷你书 老姚 - v1.0log( regex.test("hello") ); // => true 正则表达式之所以强大,是因为其能实现模糊匹配。 而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊。 1.1.1. 横向模糊匹配 横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的。 其实现的方式是使用量词。譬如 {m,n},表示连续出现最少 m 次,最多 n 次。 比如正则 /ab{2,5}c/ 是“第一个” 。g 是单词 global 的首字母。 1.1.2. 纵向模糊匹配 纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种 可能。 其实现的方式是使用字符组。譬如 [abc],表示该字符是可以字符 "a"、"b"、"c" 中的任何一个。 比如 /a[123]b/ 可以匹配如下三种字符串: "a1b"、"a2b"、"a3b"。 其可视化形式如下: | 第 9 页 通过在量词后面加个问号就能实现惰性匹配,因此所有惰性匹配情形如下: 惰性量词 贪婪量词 {m,n}? {m,n} {m,}? {m,} ?? ? +? + *? * TIP 对惰性匹配的记忆方式是:量词后面加个问号,问一问你知足了吗,你很贪婪吗? 以上惰性量词对应的可视化形式是: 1.4. 多选分支 一个模式可以实现横向和纵向模糊匹配。而多选分支可以支持多个子模式任选其一。0 码力 | 89 页 | 3.42 MB | 11 月前3
Ubuntu 桌面培训 2010为什么开机的时候条目变多了? . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.III.VI如何设置鼠标右键菜单?在终端中打开/设为壁纸等功 能是怎么实现的? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.III.VIIGedit 打开一些文本文件时会乱码,其他文本编辑器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 XI.VII.V怎么实现定时关机? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 498 XI.VII.VI如何自动登录? . . 品设计和生产技术发展。它既是理论,也是具体的实践。开源的广泛实践使得软件用 户可以获得他们所使用软件的源代码,并且知识产权限制很少甚至没有,这允许用户 对软件进行修改,或者利用获得的代码编写并发布新的软件,使其满足自身需要,或 者进行互相协作以改进开源软件。开源和 Linux 都是在逐步变化的过程中,形成今天 的样子的。 自由分发的源代码的想法是为了鼓励人们自愿地、相互协同地开发软件。用户不断参 与增强软件、修复缺陷、开发新功能并且和其他人分享。0 码力 | 540 页 | 26.26 MB | 1 年前3
消息中间件RocketMQ原理解析 - 斩秋.............. 49 1. invokeSyncImpl 同步调用实现 .................................................................................. 49 2. invokeAsyncImpl 异步调用实现 .......................................... .......................................................... 52 二:NettyRemotingServer Remoting 服务端实现 .............................................................. 53 三:NettyRemotingClient ......... rocketmq 源码过程中的笔记中整理出来的,由于时间及能力原因,理 解有误之处还请谅解,希望对大家学习使用 rocketmq 有所帮助。 Rocketmq 是阿里基于开源思想做的一款产品,代码托管于 github 上,要想学好用好 rocketmq 请从 https://github.com/alibaba/RocketMQ 获取最权威的文档、问题解答、原理介 绍等。0 码力 | 57 页 | 2.39 MB | 1 年前3
强大的音视频处理工具: FFmpegGitbook最后更新: 2021-09-13 16:20:32 获取 34 字幕分类 根据字幕信息嵌⼊到视频中的⽅式,可以把字幕分为: 软字幕 特点 过程可逆 可以提取出字幕⽂件,查看字幕源代码 包含 内挂字幕 ⼀般指字幕⽂件与视频⼀同封装在MKV⽂件中,播放时 需经过播放器处理解析显示(=VSFilter渲染) 外挂字幕 以单独的字幕⽂件形式存在,播放时经播放器处理解析 显示(=VSFilter渲染)到视频上 在SSA编写⻛格的基础上增添更多的效果和指令 使⽤现状 该字幕格式常被字幕组所应⽤ ⽬前有很多播放器⽀持渲染SSA、ASS字幕 最新版本:V4.00+ ASS字幕分类 软字幕 特点 过程可逆 可以提取、取出和查看源代码的 包含 内挂字幕 ⼀般指字幕⽂件与视频⼀同封装在MKV⽂件 中,播放时需经过VSFilter渲染 外挂字幕 字幕⽂件以单独形式存在,播放时经VSFilter 渲染到视频上 内嵌字幕 字幕 获取 47 编辑字幕 ⽤Aegisub编辑字幕,,调整出我要的效果后,另存为保存出的ass⽂件 把其配置: 换进来即可 输出=编辑后 核⼼配置 就⼀句: 起到了配置字幕属性,实现了效果: 字体:PingFang SC 字体⼤⼩:20 字幕的背景半透明效果:后⾯很多参数组合的效果 [[Script Info Script Info]] ;; Script generated0 码力 | 73 页 | 11.57 MB | 1 年前3
基于go和flutter的实时通信/视频直播解决方案 段维伟实时通讯应用爆发 • 疫情影响,全世界都在使用远程教育,远程办公 • 云游戏,机器人,VR,直播等 • 如何用最容易的方案实现实时通讯 • 漂亮的app,最好全部(mobile, web, desktop)平台都支持. • 最容易使用的后端技术 真实世界的需求点 用开源方案实现需求 WebRTC + Flutter + Go 技术简介 第二部分 WebRTC 是什么 01. • 02. 副标题 • 用实现网页音/视频通话 • 低延迟直播系统(在线课堂) • 多人视频会议系统 • 高质量SIP/VOIP系统 • 视频监控系统 • 机器学习,视觉计算等 如何使用它 01. 副标题 • 在Web中使用JS API • 基于google libwebrtc实现原生客户端开发 (ios/android/c++) • 使用第三方堆栈实现兼容功能(Go) https://github 基于 Skia 2D 渲染引擎 • 使用类似JS/TS的Dart 语言开发 • 支持代码编辑后热重载, Flutter 支持那些平台 iOS/Android/Web/Windows/Linux/macOS/Embedded 使用flutter 开发app意味着什么? • 无需为每个平台独立维护代码 • 一次编码,多平台运行,效率最大化 • 多平台一致性体验 • 强大的社区资源 Flutter-WebRTC0 码力 | 38 页 | 2.22 MB | 1 年前3
MySQL高可用 - 多种方案公司的业务,了解在线系统中那些东西 会影响高可用,以及了解各个高可用方案比较适合哪些场景,通过这些比对应该不难找 出适合自己公司的高可用 mysql 方案。 经常有网友问 mysql 高可用如何实现,希望得到一些能实际使用的可验证的高可用 方案。所以花了些时间对 mysql 高可用的几种常用方式做一下总结,及写出详细的配置 方案,方便网友学习以及验证,希望对大家学习 mysql 高可用有所帮助。这也是本文档 作为目前比较流行的高可用解决方案,lvs 提供负载均衡, keepalived 作为故障转移,提高系统的可用性。但是一般的 mysql 高可用为了实现 mysql 数据的一致性,一般都是采用单点写入,本方案采用 keepalived 中的 sorry_server 来实现写入数据库为单点的需求。本方案实现的功能是当网络有问题、 mysql 有问题、服务器宕机、keepalived 服务停止后,服务器能自动跳转到备用机, 当主服务器服务启动起来后会自动切换回来。 安装配置简单,实现方便,高可用效率好,可以根据服务与系统的可用性 多方面进行切换。 可以将写 VIP 和读 VIP 分别进行设置,为读写分离做准备。 扩展不是很方便。 可以在后面添加多个从服务器,并做到负载均衡。 缺点: 在启动或者恢复后会立即替换掉定义的 sorry_server,因此如果要实现指 定条件替换或者不替换需要通过其他方式实现,比如:临时更改0 码力 | 31 页 | 874.28 KB | 1 年前3
共 15 条
- 1
- 2













