搜索

epub文档 Scrapy 2.3 Documentation

658.68 KB 433 页 0 下载 80 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
《Scrapy 2.3 Documentation》主要介绍了Scrapy 2.3版本的更新内容,包括新功能、改进、修复的bug以及弃用的功能。文档详细说明了Feed exports对Google Cloud Storage的支持,新增的FEED EXPORT BATCH ITEM COUNT设置,以及对CSV和JSON导出的人性化改进。同时,文档还提到了一些弃用的功能和模块,如scrapy.utils.python.retry_on_eintr函数的弃用,以及对旧版本模块的移除。此外,文档还涵盖了Spider.make_requests_from_url的弃用、默认设置的变化以及其他一些功能改进。
AI总结
### Scrapy 2.3 版本总结 #### 1. 概述 Scrapy 是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 获取帮助 - 查看 FAQ 和索引。 - 在 StackOverflow 和 Reddit 的 Scrapy 标签下提问。 - 在 Scrapy 用户邮件列表和 IRC 频道中寻求帮助。 - 在 GitHub 问题追踪器报告问题。 #### 3. 主要改进 - **可用性改进**: - 增加了更多 `RobotsTxtMiddleware` 的统计信息。 - 使用 INFO 级别日志显示 Telnet 主机和端口。 - 提升了链接提取功能,支持更多协议和扩展。 - 优化了错误消息和日志记录。 - **文档改进**: - 更新了 `Selector` 文档,推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`。 - 新增使用浏览器开发者工具进行抓取的教程。 - 文档新增了 `.rst` 扩展,并优化了代码示例。 - **新功能**: - 支持 Google Cloud Storage 作为输出存储。 - 新增 `FEED_EXPORT_BATCH_ITEM_COUNT` 设置,允许分批导出数据。 - 支持从 curl 命令生成请求。 - 新增 `Request.from_curl` 方法,支持更多参数。 #### 4. 兼容性变化 - 移除了部分弃用的模块和类,如 `scrapy.contrib` 和 `scrapy.dupefilter`。 - 默认启用 `memusage` 扩展。 - `scrapy.utils.python.retry_on_eintr` 被弃用。 #### 5. 版本更新亮点 - **Scrapy 2.3.0**: - 新增 `itemloaders` 库,支持独立使用。 - 移除了部分旧的链接提取器类,推荐使用 `LinkExtractor`。 - 新增对 Google Cloud Storage 的支持。 - 解决了 CSV 导出和数据类项的问题。 - **Scrapy 1.6.0**: - 支持 Windows 和 Python 3.7。 - 优化了文档和 `Selector` API。 - 新增 `FEED_EXPORT_INDENT` 设置,提升 JSON 和 XML 的可读性。 - **Scrapy 1.3.0**: - 修复了 HTTP 缓存和 Twisted 版本兼容性问题。 - 新增 `LinkExtractor` 的支持和改进。 #### 6. 总结 Scrapy 2.3 版本在功能、性能和文档方面均有显著提升,新增了对 Google Cloud Storage 的支持,并优化了数据导出和日志记录功能。同时,移除了部分旧模块,推荐用户使用最新 API 和功能。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 426 页请下载阅读 -
文档评分
请文明评论,理性发言.