清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
清华大学新闻学院与人工智能学 院双聘教授 沈阳团队博士后 何静 能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容; 2、撰写python脚本; 3、提取并合并网址; 4、提取网址内容; 5、写入文件。 任务 你需要完成以下两个任务: 1.阅读网页【网址】源代码【对应网页源代码】。提取所 据采集结果为空。 DeepSeek R1 能够提取所有网址并进行 筛选、去重,所撰写代码 运行后完成数据爬虫任务, 所获取数据准确,少量数 据有所遗漏。 提示词 测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 爬虫数据采集 目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址,Claude0 码力 | 85 页 | 8.31 MB | 8 月前3跟我学Shiro - 张开涛
iro的对外API核心就是Subject; 其每个 API 的含义: Subject:主体,代表了当前“用户”,这个用户不一定是一个具体的人,与当前应用交互 的任何东西都是 Subject,如网络爬虫,机器人等;即一个抽象概念;所有 Subject 都绑定 到 SecurityManager,与 Subject 的所有交互都会委托给 SecurityManager;可以把 Subject 认 为0 码力 | 219 页 | 4.16 MB | 10 月前3Rust 程序设计语言 简体中文版 1.85.0
Future 实现。我们会在本章 结尾回到这个 trait 的定义,并深入了解它的工作原理,但现在这些细节已经足够让我们继续 前进了。 这些内容可能有点抽象,所以让我们来编写第一个异步程序:一个小型网络爬虫。我们会从命 令行传递两个 URL,并发地抓取它们,并返回第一个完成解析的结果。这个示例会引入不少新 语法,不过不用担心 – 我们会逐步解释所有你需要了解的内容。 第一个异步程序 为了保持本章的内容专注于学习,仍然可以打印出有意义的信息。有了这些信息,我们对 println! 的输出进行 了封装和更新,以表明哪个 URL 最先完成,并在页面有 时打印出它的内容。 现在我们完成一个可用的小型网页爬虫的构建了!挑选一对 URL 并运行命令行工具。你会发 现某些网站稳定地快于其它网站,而在另一些情况下哪个站点更快则因每次运行而异。更重要 的是,你已经掌握了处理 futures 的基础知识,因此我们现在可以进一步探索更多 0 码力 | 562 页 | 3.23 MB | 15 天前3Python 标准库参考指南 2.7.18
mtime() Returns the time the robots.txt file was last fetched. This is useful for long-running web spiders that need to check for new robots.txt files periodically. modified() Sets the time the robots.txt0 码力 | 1552 页 | 7.42 MB | 9 月前3Python 标准库参考指南 2.7.18
mtime() Returns the time the robots.txt file was last fetched. This is useful for long-running web spiders that need to check for new robots.txt files periodically. modified() Sets the time the robots.txt0 码力 | 1552 页 | 7.42 MB | 9 月前3Python 标准库参考指南 2.7.18
mtime() Returns the time the robots.txt file was last fetched. This is useful for long-running web spiders that need to check for new robots.txt files periodically. modified() Sets the time the robots.txt0 码力 | 1552 页 | 7.42 MB | 9 月前3Python 标准库参考指南 3.6.15
txt 文件中的规则来获取 url 则返回 True。 mtime() 返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情 况的长时间运行的网页爬虫。 modified() 将最近一次获取 robots.txt 文件的时间设置为当前时间。 crawl_delay(useragent) 为指定的 useragent 从 robots.txt0 码力 | 1886 页 | 8.95 MB | 9 月前3Python 标准库参考指南 3.6.15
txt 文件中的规则来获取 url 则返回 True。 mtime() 返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情 况的长时间运行的网页爬虫。 modified() 将最近一次获取 robots.txt 文件的时间设置为当前时间。 crawl_delay(useragent) 为指定的 useragent 从 robots.txt0 码力 | 1886 页 | 8.95 MB | 9 月前3Python 标准库参考指南 3.7.13
Library Reference, 发布 3.7.13 mtime() 返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更 新情况的长时间运行的网页爬虫。 modified() 将最近一次获取 robots.txt 文件的时间设置为当前时间。 crawl_delay(useragent) 为指定的 useragent 从 robots.txt0 码力 | 1846 页 | 9.09 MB | 9 月前3Python 标准库参考指南 3.7.13
txt 文件中的规则来获取 url 则返回 True。 mtime() 返回最近一次获取 robots.txt 文件的时间。这适用于需要定期检查 robots.txt 文件更新情 况的长时间运行的网页爬虫。 modified() 将最近一次获取 robots.txt 文件的时间设置为当前时间。 crawl_delay(useragent) 为指定的 useragent 从 robots.txt0 码力 | 1961 页 | 9.14 MB | 9 月前3
共 23 条
- 1
- 2
- 3