| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
《Scrapy 2.3 Documentation》主要介绍了Scrapy 2.3版本的更新内容,包括新功能、改进、修复的bug以及弃用的功能。文档详细说明了Feed exports对Google Cloud Storage的支持,新增的FEED EXPORT BATCH ITEM COUNT设置,以及对CSV和JSON导出的人性化改进。同时,文档还提到了一些弃用的功能和模块,如scrapy.utils.python.retry_on_eintr函数的弃用,以及对旧版本模块的移除。此外,文档还涵盖了Spider.make_requests_from_url的弃用、默认设置的变化以及其他一些功能改进。 | ||
| AI总结 | ||
### Scrapy 2.3 版本总结
#### 1. 概述
Scrapy 是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。
#### 2. 获取帮助
- 查看 FAQ 和索引。
- 在 StackOverflow 和 Reddit 的 Scrapy 标签下提问。
- 在 Scrapy 用户邮件列表和 IRC 频道中寻求帮助。
- 在 GitHub 问题追踪器报告问题。
#### 3. 主要改进
- **可用性改进**:
- 增加了更多 `RobotsTxtMiddleware` 的统计信息。
- 使用 INFO 级别日志显示 Telnet 主机和端口。
- 提升了链接提取功能,支持更多协议和扩展。
- 优化了错误消息和日志记录。
- **文档改进**:
- 更新了 `Selector` 文档,推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`。
- 新增使用浏览器开发者工具进行抓取的教程。
- 文档新增了 `.rst` 扩展,并优化了代码示例。
- **新功能**:
- 支持 Google Cloud Storage 作为输出存储。
- 新增 `FEED_EXPORT_BATCH_ITEM_COUNT` 设置,允许分批导出数据。
- 支持从 curl 命令生成请求。
- 新增 `Request.from_curl` 方法,支持更多参数。
#### 4. 兼容性变化
- 移除了部分弃用的模块和类,如 `scrapy.contrib` 和 `scrapy.dupefilter`。
- 默认启用 `memusage` 扩展。
- `scrapy.utils.python.retry_on_eintr` 被弃用。
#### 5. 版本更新亮点
- **Scrapy 2.3.0**:
- 新增 `itemloaders` 库,支持独立使用。
- 移除了部分旧的链接提取器类,推荐使用 `LinkExtractor`。
- 新增对 Google Cloud Storage 的支持。
- 解决了 CSV 导出和数据类项的问题。
- **Scrapy 1.6.0**:
- 支持 Windows 和 Python 3.7。
- 优化了文档和 `Selector` API。
- 新增 `FEED_EXPORT_INDENT` 设置,提升 JSON 和 XML 的可读性。
- **Scrapy 1.3.0**:
- 修复了 HTTP 缓存和 Twisted 版本兼容性问题。
- 新增 `LinkExtractor` 的支持和改进。
#### 6. 总结
Scrapy 2.3 版本在功能、性能和文档方面均有显著提升,新增了对 Google Cloud Storage 的支持,并优化了数据导出和日志记录功能。同时,移除了部分旧模块,推荐用户使用最新 API 和功能。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
426 页请下载阅读 -
文档评分














Scrapy 2.3 Documentation
Django CMS 2.3.x Documentation