清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 有包含“春运2025丨X月X日,全社会跨区域人员流动量完 成X万人次”的网址进行去重、筛选,合并成网址列表 响应速度快,能够高效提 取所有需求链接,输出完 整可运行python脚本,代 码运行后生成文件,但数 据采集结果为空。 DeepSeek R1 能够提取所有网址并进行 筛选、去重,所撰写代码 运行后完成数据爬虫任务, 所获取数据准确,少量数 据有所遗漏。 提示词 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。0 码力 | 85 页 | 8.31 MB | 8 月前3
JavaScript 正则表达式迷你书 老姚 - v1.1search 和 match 的参数问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2.2. match 返回结果的格式问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2.3. exec 比 match 更强大 . . . . . . 不强求的,本来就是免费的嘛。说真的,我也不曾妄想,靠此就可以发大财,从此走上人生小巅峰。 当然,我也在想,如果能得到读者的认可,自己的小心脏肯定会砰砰的。 本书制作用到的工具 本书采用 Asciidoc 格式编写。 使用 Asciidoctor 构建本书电子版。 教程: • 语法教程 • 转换PDF教程 书中用的可视化图片是由 Regulex 正则表达式可视化工具生成。 其余图片是由 Processon console.log( regex.test("7:9") ); // => true // => true // => true 其可视化形式: 1.5.3. 匹配日期 比如 yyyy-mm-dd 格式为例。 要求匹配: 2017-06-10 分析: 年,四位数字即可,可用 [0-9]{4}。 月,共 12 个月,分两种情况 "01"、"02"、…、"09" 和 "10"、"11"、"12",可用0 码力 | 89 页 | 3.42 MB | 11 月前3
JavaScript 正则表达式迷你书 老姚 - v1.0search 和 match 的参数问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2.2. match 返回结果的格式问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66 7.2.3. exec 比 match 更强大 . . . . . . 不强求的,本来就是免费的嘛。说真的,我也不曾妄想,靠此就可以发大财,从此走上人生小巅峰。 当然,我也在想,如果能得到读者的认可,自己的小心脏肯定会砰砰的。 本书制作用到的工具 本书采用Asciidoc格式编写。 使用 Asciidoctor 构建本书电子版。 教程: • 语法教程 • 转换PDF教程 书中用的可视化图片是由 Regulex 正则表达式可视化工具生成。 其余图片是由 Processon console.log( regex.test("7:9") ); // => true // => true // => true 其可视化形式: 1.5.3. 匹配日期 比如 yyyy-mm-dd 格式为例。 要求匹配: 2017-06-10 分析: 年,四位数字即可,可用 [0-9]{4}。 月,共 12 个月,分两种情况 "01"、"02"、…、"09" 和 "10"、"11"、"12",可用0 码力 | 89 页 | 3.42 MB | 11 月前3
Ubuntu 桌面培训 2010. . . . . . . . . . . . . 125 IV.5 格式工具栏 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126 IV.6 使用格式和样式窗口 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127 IV.7 样式和格式图标 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 128 IV.8 使用样式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134 IV.13 自定义表格格式 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 540 页 | 26.26 MB | 1 年前3
强大的音视频处理工具: FFmpegFFmpeg安装 ⾳频处理 提取⾳频⽚段 视频处理 视频属性 获取 调整 尺⼨调整 动图gif 视频转动图 动图转视频 ⽔印 去除⽔印 提取⾳频 字幕处理 背景知识 字幕分类 字幕格式 编辑字幕 Aegisub 提取字幕 转换字幕 嵌⼊字幕 指定字幕位置 指定字幕⽂字属性 ffmpeg使⽤⼼得 ⽤到ffmpeg的 Python 附录 获取 2 1.9.1 ⾼尺⼨⼤⼩;以及动图gif处理,包括视频转动图、动图转视频;以及⽔印 处理,包括去除视频⽔印;从视频中提取完整⾳频和⾳频⽚段;字幕相关 处理,包括字幕的背景知识,包括软字幕和硬字幕、常⻅字幕格式ass和 srt;以及如何⽤Aegisub编辑字幕;从视频中提取字幕、从srt转换出ass 字幕;嵌⼊字幕,包括⽤流拷⻉模式嵌⼊软字幕、⽤vf模式烧录嵌⼊硬字 幕、且可以指定字幕位置、指定字幕⽂字属性等;整理ffmpeg使⽤的⼼得 和常⻅问题;以及其他有哪些⼯具软件⽤到了ffmpeg、如何⽤Python调⽤ ffmpeg;最后给出附录内容,包括help语法、⽂档资料等。 源码+浏览+下载 本书的各种源码、在线浏览地址、多种格式⽂件下载如下: Gitbook源码 crifan/media_process_ffmpeg: 强⼤的⾳视频处理⼯具:FFmpeg 如何使⽤此Gitbook源码去⽣成发布为电⼦书 详⻅:cri0 码力 | 73 页 | 11.57 MB | 1 年前3
清华大学 DeepSeek 从入门到精通商用。 Deepseek可以做什么? 直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能 优 化 提 示 技术文档处理 • API文档生成 • 代码库解释与示 例生成 代码生成 • 根 据 需 求 生 成 代 码片段(Python、 JavaScript) • 自 动 补 全 调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明) 性能本质 专精于逻辑密度高的任务 擅长多样性高的任务 强弱判断0 码力 | 103 页 | 5.40 MB | 8 月前3
消息中间件RocketMQ原理解析 - 斩秋rocketmq 源码过程中的笔记中整理出来的,由于时间及能力原因,理 解有误之处还请谅解,希望对大家学习使用 rocketmq 有所帮助。 Rocketmq 是阿里基于开源思想做的一款产品,代码托管于 github 上,要想学好用好 rocketmq 请从 https://github.com/alibaba/RocketMQ 获取最权威的文档、问题解答、原理介 绍等。 Balance(topic) 获取消费的队 列 业务自己获取消费队列,自己到 broker 拉取消息,以及自己更新消费进度 因为内部实现跟 push 方式类似就不在啰嗦,用法也请求看示例代码去 七:shutdown DefaultMQPushConsumerImpl 关闭消费端 关闭消费线程 将分配到的 Set的消费进度保存到 1. 获取 namesrv 的地址列表(是乱序的) 2. 遍历向每个 namesrv 注册 topic 的配置信息 topicconfig Topic 在 broker 文件上的存储 json 格式 "TopicTest":{ "perm":6, "readQueueNums":8, "topicFilterType":"SINGLE_TAG" 0 码力 | 57 页 | 2.39 MB | 1 年前3
RocketMQ v3.2.4 开发指南组成 MsgId 总共 16 字节,包含消息存储主机地址,消息 Commit Log offset。从 MsgId 中解析出 Broker 的地址和 Commit Log 的偏秱地址,然后挄照存储格式所在位置消息 buffer 解析成一个完整的消息。 7.3.2 挄照 Message Key 查询消息 Commit Log Offset Timestamp Next Index Offset com/alibaba/RocketMQ 28 */ consumer.subscribe("TopicTest1", "TagA || TagC || TagD"); 如以上代码所示,简单消息过滤通过挃定多个 Tag 来过滤消息,过滤劢作在服务器迕行。实现原理参照第 7.4 节 8.2 高级消息过滤 Broker Filter Server Filter Server 难以全面利用高配的物理机 Cpu 资源 4. 因为过滤代码使用 Java 诧言来编写,应用几乎可以做任意形式的服务器端消息过滤,例如通过 Message Header 迕行过滤,甚至可以挄照 Message Body 迕行过滤。 5. 使用 Java 诧言迕行作为过滤表达式是一个双刃剑,方便了应用的过滤操作,但是带来了服务器端的安全风险。 需要应用来保证过滤代码安全,例如在过滤程序里尽可能丌做申请大内存,创建线程等操作。避免0 码力 | 52 页 | 1.61 MB | 1 年前3
2022 Apache Ozone 的最近进展和实践分享HIVE/IMPALA/SPARK KAFKA / FLINK 计算 OTHER WORKLOADS OTHER WORKLOADS X • 可⽤于承载实时和批处理的业务 • 扩展性提升 • ⽆需改变或改造业务应⽤代码 • 降低控制平⾯的节点数和服务依赖 业务价值 • 降低⼤规模集群的运维难度 • 可通过HDFS API和Distcp进⾏快速迁移 • 降低系统恢复时间 • 尽可能的减少NN Java (FSO) : ⽀持纯粹的⽂件语义, 有限的 S3 兼容性 ⽂件的存储Key格式: “/ ”. 例如, “1026/file-1” ● OBJECT_STORE (OBS) : key-value 存储, 纯粹的S3 对象存储语义 对象的存储Key格式 : 例如, “/vol-1/buck “/vol-1/buck-1/dir1/dir2/dir3/file-1” ● LEGACY: 所有已存在的桶,升级后变成LEGACY 版本,以⽀持向后兼容 存储Key格式基本同OBS, 通过配置项区分偏向⽂件,还是偏向S3对象的⽀持 引⼊Bucket级别 OM Metadata Layout 版本号 ⽂件系统优化 ⽂件系统优化效果 Query Details: Dropped “catelog_sales” 0 码力 | 35 页 | 2.57 MB | 1 年前3
MySQL高可用 - 多种方案Master 和 backup 服务器都需要安装 heardheat 软件。下面两种安装方式任 选其一。 Rpm 包的安装方式 yum -y install heartbeat-* 源代码编译安装方式 wget http://www.ultramonkey.org/download/heartbeat/2.1.3/heartbeat- 2.1.3.tar.gz tar xzvf DRBD 状态 watch -n 1 cat /proc/drbd /etc/init.d/drbd status 以上两种方式都可以查看 drbd 的状态 设置当前节点为主节点,并进行格式化和挂载 drbdadm -- --overwrite-data-of-peer primary all mkfs.ext3 /dev/drbd0 mkdir /drbd mount /dev/drbd0 了,Master 和 backup 服务器都需要安装 heardheat 软件。下面两种安装方式任选其一。 Rpm 包的安装方式 yum -y install heartbeat-* 源代码编译安装方式 wget http://www.ultramonkey.org/download/heartbeat/2.1.3/heartbeat- 2.1.3.tar.gz tar xzvf0 码力 | 31 页 | 874.28 KB | 1 年前3
共 13 条
- 1
- 2













