Scrapy 2.10 Documentation

语言	格式	评分
英语	.epub	3
摘要
Scrapy是一个快速的高级网络爬取和数据抓取框架，用于爬取网站并从其页面中提取结构化数据。文档详细介绍了Scrapy 2.10版本的新功能、改进和修复，包括对Python 3.12的支持、新增的加速度功能框架、弃用的功能以及如何提高爬虫效率和稳定性。
AI总结
Scrapy 2.10 是一个快速的高级网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 ### 获取帮助 - FAQ：常见问题解答。 - 索引和模块索引：查找特定信息。 - Stack Overflow：使用 `scrapy` 标签提问。 - Reddit 社区：访问 `r/scrapy`。 - 邮件列表存档：在 `scrapy-users` 邮件列表中搜索。 - IRC 频道：加入 `#scrapy`。 - Discord 社区：加入 Scrapy Discord。 ### 安装指南 - 提供了在计算机上安装 Scrapy 的详细步骤。 ### 入门教程 - 学习如何编写第一个 Scrapy 项目。 ### 示例 - 提供了一个预装的 Scrapy 项目，供用户学习和实验。 ### 基本概念 - 介绍了 Scrapy 的核心概念和组件。 ### 命令行工具 - 用于管理 Scrapy 项目的命令行工具。 ### 版本更新 #### Scrapy 2.10.1（2023-08-30） - 新增功能： - 支持 Python 3.12，弃用 Python 3.7。 - 新增加成框架，简化配置。 - 允许配置重试异常。 - 改进： - 依赖项版本更新：`lxml` 从 4.3.0 升级到 4.4.1，`cryptography` 从 3.4.6 升级到 36.0.0。 - 移除了不再需要的 `pkg_resources`。 - 弃用和移除： - 移除了 `scrapy.utils.reqser` 模块。 - 移除了 `scrapy.squeues` 中的某些队列类。 - 移除了 `open_spiders` 属性和 `has_capacity`、`schedule` 方法。 #### Scrapy 2.10.0（2022-08-04） - 新增功能： - 支持 Python 3.11。 - 新增 `FEED_STORE_EMPTY` 设置，默认为 `True`。 - 改进： - 提高了对最低版本依赖项的支持。 - 弃用和移除： - 移除了不再支持的 Python 3.7。 #### Scrapy 1.0.7（2017-03-03） - 修复：`RetryMiddleware` 对非标准 HTTP 状态码更健壮。 #### Scrapy 1.0.6（2016-05-04） - 修复：文件存储缓存检查错误的时间戳。 - 文档改进：支持 Sphinx 1.4+。 #### Scrapy 1.0.5（2016-02-04） - 修复：忽略错误链接。 - 文档改进：修正拼写错误和添加文档。 #### Scrapy 1.0.4（2015-12-30） - 修复：忽略错误链接。 #### Scrapy 1.0.3（2015-08-11） - 修复：Twisted 15.3.0 的序列化问题。 #### Scrapy 1.0.2（2015-08-06） - 修复：Twisted 15.3.0 的序列化问题。 #### Scrapy 1.0.1（2015-07-01） - 修复：FTP 请求路径问题。 - 文档改进：更新了版本信息和文档。 #### Scrapy 1.0.0（2015-06-19） - 新增功能： - 支持返回字典。 - 新增 `SpiderState`。 - 改进： - 更新了教程和文档。 #### Scrapy 0.16.2（2012-11-09） - 修复：LogStats 扩展问题。 - 文档改进：更新了扩展文档。 #### Scrapy 0.16.1（2012-10-26） - 修复：LogStats 扩展问题。 #### Scrapy 0.16.0（2012-10-18） - 新增功能： - Spiders Contracts。 - `runspider` 命令的 `-o` 和 `-t` 选项。 - AutoThrottle 扩展默认启用。 - 改进： - 统计收集器重构。 - 使用 `lxml` 作为默认 XPath 后端。 #### Scrapy 0.14.2（2012-09-26） - 修复：内存使用扩展问题。 #### Scrapy 0.14.1（2012-09-12） - 修复：教程引用问题。 #### Scrapy 0.14（2012-09-05） - 新增功能： - Scrapyd 服务。 - 图片管道简化使用。 - 改进： - 新增文档和日志功能。 #### Scrapy 0.13（2012-05-24） - 新增功能： - 新增 `scrapy deploy` 命令。 - 新增 `CLOSESPIDER_PAGECOUNT` 和 `CLOSESPIDER_ERRORCOUNT` 设置。 #### Scrapy 0.12（2012-03-22） - 新增功能： - 新增 `scrapy shell` 命令的 `-c` 选项。 - 支持退出码信号错误。 #### Scrapy 0.11（2011-10-27） - 新增功能： - 新增 `scrapy.utils.template` 模块。 - 新增 `FEED_EXPORTERS` 设置。 #### Scrapy 0.10（2011-07-27） - 新增功能： - Scrapyd 服务。 - 新增 `scrapy.squeues` 模块。 ### 总结 Scrapy 2.10 版本引入了对 Python 3.12 的支持，弃用了 Python 3.7，并修复了多个已知问题。新增功能和改进使其更加稳定和高效，适合数据抓取和网络监控任务。