搜索

epub文档 Scrapy 2.10 Documentation

697.14 KB 519 页 0 下载 119 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
Scrapy是一个快速的高级网络爬取和数据抓取框架,用于爬取网站并从其页面中提取结构化数据。文档详细介绍了Scrapy 2.10版本的新功能、改进和修复,包括对Python 3.12的支持、新增的加速度功能框架、弃用的功能以及如何提高爬虫效率和稳定性。
AI总结
Scrapy 2.10 是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 ### 获取帮助 - **FAQ**:常见问题解答。 - **索引和模块索引**:查找特定信息。 - **Stack Overflow**:使用 `scrapy` 标签提问。 - **Reddit 社区**:访问 `r/scrapy`。 - **邮件列表存档**:在 `scrapy-users` 邮件列表中搜索。 - **IRC 频道**:加入 `#scrapy`。 - **Discord 社区**:加入 Scrapy Discord。 ### 安装指南 - 提供了在计算机上安装 Scrapy 的详细步骤。 ### 入门教程 - 学习如何编写第一个 Scrapy 项目。 ### 示例 - 提供了一个预装的 Scrapy 项目,供用户学习和实验。 ### 基本概念 - 介绍了 Scrapy 的核心概念和组件。 ### 命令行工具 - 用于管理 Scrapy 项目的命令行工具。 ### 版本更新 #### Scrapy 2.10.1(2023-08-30) - **新增功能**: - 支持 Python 3.12,弃用 Python 3.7。 - 新增加成框架,简化配置。 - 允许配置重试异常。 - **改进**: - 依赖项版本更新:`lxml` 从 4.3.0 升级到 4.4.1,`cryptography` 从 3.4.6 升级到 36.0.0。 - 移除了不再需要的 `pkg_resources`。 - **弃用和移除**: - 移除了 `scrapy.utils.reqser` 模块。 - 移除了 `scrapy.squeues` 中的某些队列类。 - 移除了 `open_spiders` 属性和 `has_capacity`、`schedule` 方法。 #### Scrapy 2.10.0(2022-08-04) - **新增功能**: - 支持 Python 3.11。 - 新增 `FEED_STORE_EMPTY` 设置,默认为 `True`。 - **改进**: - 提高了对最低版本依赖项的支持。 - **弃用和移除**: - 移除了不再支持的 Python 3.7。 #### Scrapy 1.0.7(2017-03-03) - **修复**:`RetryMiddleware` 对非标准 HTTP 状态码更健壮。 #### Scrapy 1.0.6(2016-05-04) - **修复**:文件存储缓存检查错误的时间戳。 - **文档改进**:支持 Sphinx 1.4+。 #### Scrapy 1.0.5(2016-02-04) - **修复**:忽略错误链接。 - **文档改进**:修正拼写错误和添加文档。 #### Scrapy 1.0.4(2015-12-30) - **修复**:忽略错误链接。 #### Scrapy 1.0.3(2015-08-11) - **修复**:Twisted 15.3.0 的序列化问题。 #### Scrapy 1.0.2(2015-08-06) - **修复**:Twisted 15.3.0 的序列化问题。 #### Scrapy 1.0.1(2015-07-01) - **修复**:FTP 请求路径问题。 - **文档改进**:更新了版本信息和文档。 #### Scrapy 1.0.0(2015-06-19) - **新增功能**: - 支持返回字典。 - 新增 `SpiderState`。 - **改进**: - 更新了教程和文档。 #### Scrapy 0.16.2(2012-11-09) - **修复**:LogStats 扩展问题。 - **文档改进**:更新了扩展文档。 #### Scrapy 0.16.1(2012-10-26) - **修复**:LogStats 扩展问题。 #### Scrapy 0.16.0(2012-10-18) - **新增功能**: - Spiders Contracts。 - `runspider` 命令的 `-o` 和 `-t` 选项。 - AutoThrottle 扩展默认启用。 - **改进**: - 统计收集器重构。 - 使用 `lxml` 作为默认 XPath 后端。 #### Scrapy 0.14.2(2012-09-26) - **修复**:内存使用扩展问题。 #### Scrapy 0.14.1(2012-09-12) - **修复**:教程引用问题。 #### Scrapy 0.14(2012-09-05) - **新增功能**: - Scrapyd 服务。 - 图片管道简化使用。 - **改进**: - 新增文档和日志功能。 #### Scrapy 0.13(2012-05-24) - **新增功能**: - 新增 `scrapy deploy` 命令。 - 新增 `CLOSESPIDER_PAGECOUNT` 和 `CLOSESPIDER_ERRORCOUNT` 设置。 #### Scrapy 0.12(2012-03-22) - **新增功能**: - 新增 `scrapy shell` 命令的 `-c` 选项。 - 支持退出码信号错误。 #### Scrapy 0.11(2011-10-27) - **新增功能**: - 新增 `scrapy.utils.template` 模块。 - 新增 `FEED_EXPORTERS` 设置。 #### Scrapy 0.10(2011-07-27) - **新增功能**: - Scrapyd 服务。 - 新增 `scrapy.squeues` 模块。 ### 总结 Scrapy 2.10 版本引入了对 Python 3.12 的支持,弃用了 Python 3.7,并修复了多个已知问题。新增功能和改进使其更加稳定和高效,适合数据抓取和网络监控任务。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 512 页请下载阅读 -
文档评分
请文明评论,理性发言.