Scrapy 2.3 Documentation

语言	格式	评分
英语	.epub	3
摘要
《Scrapy 2.3 Documentation》主要介绍了Scrapy 2.3版本的更新内容，包括新功能、改进、修复的bug以及弃用的功能。文档详细说明了Feed exports对Google Cloud Storage的支持，新增的FEED EXPORT BATCH ITEM COUNT设置，以及对CSV和JSON导出的人性化改进。同时，文档还提到了一些弃用的功能和模块，如scrapy.utils.python.retry_on_eintr函数的弃用，以及对旧版本模块的移除。此外，文档还涵盖了Spider.make_requests_from_url的弃用、默认设置的变化以及其他一些功能改进。
AI总结
### Scrapy 2.3 版本总结 #### 1. 概述 Scrapy 是一个快速的高级网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 获取帮助 - 查看 FAQ 和索引。 - 在 StackOverflow 和 Reddit 的 Scrapy 标签下提问。 - 在 Scrapy 用户邮件列表和 IRC 频道中寻求帮助。 - 在 GitHub 问题追踪器报告问题。 #### 3. 主要改进 - 可用性改进： - 增加了更多 `RobotsTxtMiddleware` 的统计信息。 - 使用 INFO 级别日志显示 Telnet 主机和端口。 - 提升了链接提取功能，支持更多协议和扩展。 - 优化了错误消息和日志记录。 - 文档改进： - 更新了 `Selector` 文档，推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`。 - 新增使用浏览器开发者工具进行抓取的教程。 - 文档新增了 `.rst` 扩展，并优化了代码示例。 - 新功能： - 支持 Google Cloud Storage 作为输出存储。 - 新增 `FEED_EXPORT_BATCH_ITEM_COUNT` 设置，允许分批导出数据。 - 支持从 curl 命令生成请求。 - 新增 `Request.from_curl` 方法，支持更多参数。 #### 4. 兼容性变化 - 移除了部分弃用的模块和类，如 `scrapy.contrib` 和 `scrapy.dupefilter`。 - 默认启用 `memusage` 扩展。 - `scrapy.utils.python.retry_on_eintr` 被弃用。 #### 5. 版本更新亮点 - Scrapy 2.3.0： - 新增 `itemloaders` 库，支持独立使用。 - 移除了部分旧的链接提取器类，推荐使用 `LinkExtractor`。 - 新增对 Google Cloud Storage 的支持。 - 解决了 CSV 导出和数据类项的问题。 - Scrapy 1.6.0： - 支持 Windows 和 Python 3.7。 - 优化了文档和 `Selector` API。 - 新增 `FEED_EXPORT_INDENT` 设置，提升 JSON 和 XML 的可读性。 - Scrapy 1.3.0： - 修复了 HTTP 缓存和 Twisted 版本兼容性问题。 - 新增 `LinkExtractor` 的支持和改进。 #### 6. 总结 Scrapy 2.3 版本在功能、性能和文档方面均有显著提升，新增了对 Google Cloud Storage 的支持，并优化了数据导出和日志记录功能。同时，移除了部分旧模块，推荐用户使用最新 API 和功能。