Scrapy 2.5 Documentation

语言	格式	评分
英语	.epub	3
摘要
文档详细介绍了Scrapy 2.5版本的功能、安装、使用方法及更新内容。Scrapy是一个快速的Web爬取和数据抓取框架，支持多种用途，如数据挖掘和自动化测试。文档涵盖了从安装到高级功能的全面指导，包括新功能、性能改进、对Python 3.6的支持、新的文件处理选项以及与Google Cloud Storage的集成。此外，文档还提到了对旧版本的兼容性调整和安全性的增强。
AI总结
Scrapy 2.5 是一个功能强大的网络爬取和抓取框架，支持数据挖掘、监控和自动化测试等多种用途。以下是文档的核心内容总结： ### 主要改进与功能 1. 兼容性与性能优化： - 支持 Python 3.6+，兼容性进一步提升。 - 提升了对 Twisted 14.0 和 lxml 3.4 的兼容性，确保代码稳定运行。 - 修复了与 CrawlSpider 和_parsel 库的兼容性问题，优化了爬虫性能。 2. 新功能： - 扩展性增强：新增 `from_crawler` 支持，允许自定义 feed 导出器和去重过滤器访问设置和蜘蛛。 - 信号机制：引入了新的信号，如 `request_reached_downloader` 和 `item_error`，方便开发者自定义处理逻辑。 - SitemapSpider 支持：新增 `sitemap_filter` 方法，允许子类根据需求筛选sitemap链接。 3. 文件与媒体处理： - 增强了对 S3 和 Google Cloud Storage 的支持，新增更多配置选项，如 AWS 端点 URL 和区域名称。 - 支持通过 ACL 控制 Google Cloud 存储的访问权限。 4. Selector API 更新： - 采用_parsel 1.5+，推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`，代码更简洁。 - 引入 `Selector.attrib` 和 `SelectorList.attrib`，简化 HTML 属性提取。 5. Telnet 控制台： - 为提高安全性，默认启用用户密码认证，需配置 `TELNETCONSOLE_ENABLED` 和 `TELNETCONSOLE_PASSWORD`。 6. 文档改进： - 更新了教程和示例，使用新的测试网站（如 http://toscrape.com）。 - 优化了响应参数和设置的文档，增加了对新功能的详细说明。 ### 版本更新 - Scrapy 2.5：修复了多个关键问题，优化了爬虫性能和日志处理，提升了对最新 Python 和第三方库的兼容性。 - Scrapy 1.5：新增对 Google Cloud Storage 的支持，改进了代理服务器的连接复用，提升了 HTTP 状态码处理能力。 - Scrapy 1.3：修复了 gzip 解压性能问题，改进了 SSL 验证和 Ctrl-C 处理，新增了对 PyPy 和 PyPy3 的支持。 ### 获取帮助如需支持，可参考 FAQ、索引或通过 Stack Overflow、Reddit 等社区寻求帮助。总结而言，Scrapy 2.5 在兼容性、性能和功能上均有显著提升，适合开发高效且稳定的网络爬虫项目。