Scrapy 1.7 Documentation

语言	格式	评分
英语	.epub	3
摘要
文档详细介绍了Scrapy 1.7版本的更新内容，包括新功能、API改进、性能优化和弃用的旧功能。主要更新包括支持多域名爬虫、新的JSON请求类、改进的Feed导出功能、对.get()和.getall() API的推荐使用，以及对Python 2支持的终止。文档还提到了对开发者更友好且强大的API和功能改进。
AI总结
### Scrapy 1.7 文档总结 #### 1. 框架简介 Scrapy 是一个快速的高层次网络爬取和抓取框架，用于抓取网站并从其页面中提取结构化数据。它可以用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 安装与入门 - 安装：文档提供了详细的安装指南，帮助用户快速完成 Scrapy 的安装。 - 入门：通过教程和示例，用户可以快速上手，了解如何编写第一个 Scrapy 项目。 #### 3. 基本概念 - 命令行工具：Scrapy 提供了一个命令行工具，用于管理项目。 - 蜘蛛（Spiders）：Scrapy 的核心组件，用于定义爬取逻辑。 #### 4. 主要版本更新 ##### Scrapy 1.7.0（2019-07-18） - 亮点： - 更好的多域爬取支持。 - 新的 JSON 请求类。 - 规则基蜘蛛的改进。 - 新增 `FEED_EXPORT_INDENT` 设置，支持 JSON 和 XML 的可读格式输出。 - 新功能： - 支持代理凭证。 - `Response.follow` 简化请求创建。 - 新增 `retry/max_reached` 和 `retry/reason_count/` 等重试统计。 - 支持匿名 FTP 和可自定义的referrer策略。 - 新增 `DOWNLOAD_FAIL_ON_DATALOSS` 设置，允许处理不完整响应。 - 改进： - 文档改进：推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`。 - 提升 Windows 支持和 Python 3.7 兼容性。 - 向后不兼容变化： - 默认启用 `memusage` 扩展。 - `Spider.make_requests_from_url` 方法弃用。 - `scrapy.command` 和 `scrapy.contrib` 等模块移除。 ##### Scrapy 1.6.0（2019-01-30） - 亮点： - Python 3.7 兼容性。 - 文档改进：Switch 从 `.extract()` 到 `.get()` API。 - Feed 导出和管道改进。 - 新功能： - 支持 `data:` URI 下载处理器。 - 新增 `retry` 相关统计和设置。 - 改进： - 提升 `RobotsTxtMiddleware` 的统计信息。 - 提升 Telnet 控制台的安全性。 ##### Scrapy 1.0.5（2016-02-04） - 改进： - 修复爬虫中的重复链接问题。 - 文档修复和测试改进。 ##### Scrapy 0.16.3（2012-12-07） - 改进： - 修复下载延迟和并发限制问题。 - 提升 Mac OS 兼容性。 #### 5. 其他重要信息 - 弃用：部分旧模块和方法（如 `scrapy.contrib` 和 `scrapy.project`）已被移除。 - 文档：文档经过重新编写，提升了可读性和规范性，新增了更多主题，如选择器扩展和 CSS 选择器扩展。 #### 6. 注意事项 - Scrapy 1.x 是最后一个支持 Python 2 的版本，Scrapy 2.0 将仅支持 Python 3。总结：Scrapy 1.7 提供了更强的扩展性和更好的用户体验，同时修复了大量 bug 并改进了文档，适合需要高效网络爬取和数据处理的用户。