清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1.5 垂直领域优化:针对特定领域 (如医疗、法律)进行优化, 提供高精度结果。 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春运2025丨X月X日,全社会跨区域人员流动量完0 码力 | 85 页 | 8.31 MB | 8 月前3
清华大学 DeepSeek 从入门到精通商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断0 码力 | 103 页 | 5.40 MB | 8 月前3
JavaScript 正则表达式迷你书 老姚 - v1.1match(regex)[0]); // => id="container" 当然,这样也会有个问题。效率比较低,因为其匹配原理会涉及到“回溯”这个概念(这里也只是顺便提一 下,第四章会详细说明)。可以优化如下: var regex = /id="[^"]*"/ var string = ''; console.log(string 第四章 正则表达式回溯法原理 | 第 45 页 5. 第五章 正则表达式的拆分 对于一门语言的掌握程度怎么样,可以有两个角度来衡量:读和写。 不仅要求自己能解决问题,还要看懂别人的解决方案。代码是这样,正则表达式也是这样。 正则这门语言跟其他语言有一点不同,它通常就是一大堆字符,而没有所谓“语句”的概念。 如何能正确地把一大串正则拆分成一块一块的,成为了破解“天书”的关键。 本章就解决这一问题,内容包括: 5. 第五章 正则表达式的拆分 | 第 52 页 6. 第六章 正则表达式的构建 对于一门语言的掌握程度怎么样,可以有两个角度来衡量:读和写。 不仅要看懂别人的解决方案,也要能独立地解决问题。代码是这样,正则表达式也是这样。 与“读”相比,“写”往往更为重要,这个道理是不言而喻的。 对正则的运用,首重就是:如何针对问题,构建一个合适的正则表达式? 本章就解决该问题,内容包括: • 平衡法则0 码力 | 89 页 | 3.42 MB | 11 月前3
JavaScript 正则表达式迷你书 老姚 - v1.0match(regex)[0]); // => id="container" 当然,这样也会有个问题。效率比较低,因为其匹配原理会涉及到“回溯”这个概念(这里也只是顺便提一 下,第四章会详细说明)。可以优化如下: var regex = /id="[^"]*"/ var string = ''; console.log(string 第四章 正则表达式回溯法原理 | 第 45 页 5. 第五章 正则表达式的拆分 对于一门语言的掌握程度怎么样,可以有两个角度来衡量:读和写。 不仅要求自己能解决问题,还要看懂别人的解决方案。代码是这样,正则表达式也是这样。 正则这门语言跟其他语言有一点不同,它通常就是一大堆字符,而没有所谓“语句”的概念。 如何能正确地把一大串正则拆分成一块一块的,成为了破解“天书”的关键。 本章就解决这一问题,内容包括: 5. 第五章 正则表达式的拆分 | 第 52 页 6. 第六章 正则表达式的构建 对于一门语言的掌握程度怎么样,可以有两个角度来衡量:读和写。 不仅要看懂别人的解决方案,也要能独立地解决问题。代码是这样,正则表达式也是这样。 与“读”相比,“写”往往更为重要,这个道理是不言而喻的。 对正则的运用,首重就是:如何针对问题,构建一个合适的正则表达式? 本章就解决该问题,内容包括: • 平衡法则0 码力 | 89 页 | 3.42 MB | 11 月前3
RocketMQ v3.2.4 开发指南..................................................................................... 44 14.3.4 优化每条消息消费过程 .......................................................................................... com/alibaba/RocketMQ 28 */ consumer.subscribe("TopicTest1", "TagA || TagC || TagD"); 如以上代码所示,简单消息过滤通过挃定多个 Tag 来过滤消息,过滤劢作在服务器迕行。实现原理参照第 7.4 节 8.2 高级消息过滤 Broker Filter Server Filter Server 难以全面利用高配的物理机 Cpu 资源 4. 因为过滤代码使用 Java 诧言来编写,应用几乎可以做任意形式的服务器端消息过滤,例如通过 Message Header 迕行过滤,甚至可以挄照 Message Body 迕行过滤。 5. 使用 Java 诧言迕行作为过滤表达式是一个双刃剑,方便了应用的过滤操作,但是带来了服务器端的安全风险。 需要应用来保证过滤代码安全,例如在过滤程序里尽可能丌做申请大内存,创建线程等操作。避免0 码力 | 52 页 | 1.61 MB | 1 年前3
MySQL 8.0.17 调优指南(openEuler 20.09)......................................................................................... 7 3.9 内核优化................................................................................................... 性能调优从大的方面来说,在系统设计之初,需要考虑硬件的选择,操作系统的选 择,基础软件的选择;从小的方面来说,包括每个子系统的设计,算法选择,如何使 用编译器的选项,如何发挥硬件最大的性能等等。 在性能优化时,我们必须遵循一定的原则,否则,有可能得不到正确的调优结果。主 要有以下几个方面: ● 对性能进行分析时,要多方面分析系统的资源瓶颈所在,因为系统某一方面性能 低,也许并不是它自己造成的,而是其 1 ● 必须保证调优后的程序运行正确。 ● 调优过程是迭代渐进的过程,每一次调优的结果都要反馈到后续的代码开发中 去。 ● 性能调优不能以牺牲代码的可读性和可维护性为代价。 1.3 调优思路 性能优化首先要较为精准的定位问题,分析系统性能瓶颈,然后根据其性能指标以及 所处层级选择优化的方式方法。 下面介绍MySQL数据库具体的调优思路和分析过程,如图1所示。 调优分析思路如下: 10 码力 | 11 页 | 223.31 KB | 1 年前3
2022 Apache Ozone 的最近进展和实践分享HIVE/IMPALA/SPARK KAFKA / FLINK 计算 OTHER WORKLOADS OTHER WORKLOADS X • 可⽤于承载实时和批处理的业务 • 扩展性提升 • ⽆需改变或改造业务应⽤代码 • 降低控制平⾯的节点数和服务依赖 业务价值 • 降低⼤规模集群的运维难度 • 可通过HDFS API和Distcp进⾏快速迁移 • 降低系统恢复时间 • 尽可能的减少NN Java • Apache Ozone适⽤场景 • Apache Ozone的最近进展 • Apache Ozone的实践分享 新进展 • ⽂件系统优化(FSO) • Ozone Balancer • 纠删码 • 单数据盘单RocksDB实例 ⽂件系统优化(FSO) dir1 dir2 dir3 file-1 file-1M 100万个⽂件 vol/buck1 Key entry /vol/buck1/dir1/ Key的存储 ⽬录 ⽂件 删除/重命名⽬录 耗时 对象存储:采⽤ KV ⽅式管理对象元数据,⽆ 需管理元数据之间的关系 ⽂件系统:额外地,需要采⽤树结构作为索 引,管理元数据之间的关系 ⽂件系统优化 ● FILE_SYSTEM_OPTIMIZED (FSO) : ⽀持纯粹的⽂件语义, 有限的 S3 兼容性 ⽂件的存储Key格式: “/ ” 0 码力 | 35 页 | 2.57 MB | 1 年前3
Ubuntu 桌面培训 2010品设计和生产技术发展。它既是理论,也是具体的实践。开源的广泛实践使得软件用 户可以获得他们所使用软件的源代码,并且知识产权限制很少甚至没有,这允许用户 对软件进行修改,或者利用获得的代码编写并发布新的软件,使其满足自身需要,或 者进行互相协作以改进开源软件。开源和 Linux 都是在逐步变化的过程中,形成今天 的样子的。 自由分发的源代码的想法是为了鼓励人们自愿地、相互协同地开发软件。用户不断参 与增强软件、修复缺陷、开发新功能并且和其他人分享。 的商业模式 都是以硬件为中心,软件只是被看作使硬件工作的东西。他们提供软件的同时也提供 源代码,软件可以被修改并因此得到改进,这便是现在开源软件的早期情况。但是, 随着硬件价格的不断下跌,销售硬件的利润也逐渐减小,制造商开始期望软件能够带 来额外的收入。越来越多的厂商开始单独销售软件,也不再提供软件的源代码。 1983年春天,Richard Matthew Stallman,这位曾经在 MIT 人工智能实验室工作 法。Copyleft 用于形容某些自 由软件的许可证,这些许可证的共同特点是:其他软件如果使用了基于这些许可证中 任意一个所发布的软件的源代码(包括附属于代码本身的图片、文档等),那么使用这些 Ubuntu 介绍 3 Ubuntu 桌面培训 目录 源代码的软件也必须采用相同或者与之兼容的许可证发布。Copyleft 性质的许可证使 自由软件开发者的成果按照其意愿保持在自由软件体系内部自由传递,同时不被专有0 码力 | 540 页 | 26.26 MB | 1 年前3
强大的音视频处理工具: FFmpegGitbook最后更新: 2021-09-13 16:20:32 获取 34 字幕分类 根据字幕信息嵌⼊到视频中的⽅式,可以把字幕分为: 软字幕 特点 过程可逆 可以提取出字幕⽂件,查看字幕源代码 包含 内挂字幕 ⼀般指字幕⽂件与视频⼀同封装在MKV⽂件中,播放时 需经过播放器处理解析显示(=VSFilter渲染) 外挂字幕 以单独的字幕⽂件形式存在,播放时经播放器处理解析 显示(=VSFilter渲染)到视频上 在SSA编写⻛格的基础上增添更多的效果和指令 使⽤现状 该字幕格式常被字幕组所应⽤ ⽬前有很多播放器⽀持渲染SSA、ASS字幕 最新版本:V4.00+ ASS字幕分类 软字幕 特点 过程可逆 可以提取、取出和查看源代码的 包含 内挂字幕 ⼀般指字幕⽂件与视频⼀同封装在MKV⽂件 中,播放时需经过VSFilter渲染 外挂字幕 字幕⽂件以单独形式存在,播放时经VSFilter 渲染到视频上 内嵌字幕 Gaupol ASS格式详解 脚本说明 Script Info: 脚本的⼀般全局信息: Title:标题 Original Script:脚本原作 Script Updated By:脚本优化 Script Type:类型 ⽤于兼容性设置 SSA=4.00 ASS=4.00+ PlayResX & PlayResY:屏幕宽⾼ PlayDepth:决定颜⾊数量 Timer:定时器0 码力 | 73 页 | 11.57 MB | 1 年前3
谈谈MYSQL那点事互联网常用数据库市场占有率 互联网通用架构体制 谈谈 MySQL 数据库那些事 MySQL MySQL 基本介绍 基本介绍 MySQL MySQL 优化方式 优化方式 MySQL MySQL 技巧分享 技巧分享 Q Q & & AA MyISAM MyISAM 特点 特点 MyISAM vs MyISAM vs InnoDB InnoDB • 数据存储方式简单,使用 台数据库服务器,也许会增加采 购压力,但是我们可以提供更好的对外数据服务的能力和 途径,实际中尽可能两者兼顾。 MySQL 架构设计—高可用架构 系统优化:硬件、架构 系统优化:硬件、架构 服务优化 服务优化 应用优化 应用优化 MySQL MySQL 优化方式 优化方式 影响性能的因素 影响性能的因素 应用程序 应用程序 查询 查询 事务管理 事务管理 数据库设计 数据库设计 数据分布 读写分离;数据库分表、数据库切片(分 读写分离;数据库分表、数据库切片(分 布式),也考虑使用相应缓存服务帮助 布式),也考虑使用相应缓存服务帮助 MySQL MySQL 缓解访问 缓解访问 压力 压力 系统优化 系统优化 配置合理的 配置合理的 MySQL MySQL 服务器,尽量在应用本身达到一 服务器,尽量在应用本身达到一 个 个 MySQL MySQL 最合理的使用 最合理的使用 针对 针对0 码力 | 38 页 | 2.04 MB | 1 年前3
共 16 条
- 1
- 2













