Scrapy 2.7 Documentation

语言	格式	评分
英语	.epub	3
摘要
Scrapy是一个快速的高级网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。文档介绍了Scrapy的功能、安装指南、教程以及版本更新内容，特别是Scrapy 2.7.1和2.7.0的更新，包括新功能、性能改进、bug修复以及对旧版本的兼容性调整。
AI总结
### Scrapy 2.7 文档总结 #### 1. Scrapy 概述 - Scrapy 是一个快速的高层次网络爬取和抓取框架，用于爬取网站并从页面中提取结构化数据。 - 可用于数据挖掘、监控、自动化测试等多种用途。 #### 2. 获取帮助 - 提供多种途径解决问题，包括 FAQ、索引、Stack Overflow、Reddit、邮件列表、IRC 频道、Discord 群组等。 - 可通过 [https://github.com/scrapy/scrapy/issues](https://github.com/scrapy/scrapy/issues) 报告问题。 #### 3. 安装与入门 - 提供安装指南和教程，帮助用户快速上手。 #### 4. 版本更新 - Scrapy 2.7.1（2022-11-02） - 新增功能：放宽对 Proxy-Authentication header 的限制，恢复与 scrapy-zyte-smartproxy 2.1.0 及更早版本的兼容性。 - 修复问题： - 解决命令行选项的冲突问题。 - 更新 asyncio API，避免隐式使用当前事件循环。 - 修复 deprecated Scrapy 和 Pillow API 的使用。 - 优化生成器返回值的检查逻辑。 - Scrapy 2.7.0（2022-10-17） - 新增功能： - 支持 Python 3.11，弃用 Python 3.6。 - 默认启用异步回调支持。 - 输出字段名支持任意字符串。 - 支持集中配置请求指纹。 - 修复问题： - 修复 XXE 漏洞。 - 支持过滤后的起始请求。 - 修复无主机名 URL 的问题。 - 测试套件不再依赖 PIL。 #### 5. 弃用与移除的 API - 移除了 deprecated 的 API，包括： - `scrapy.conf`（建议使用 `Crawler.settings`）。 - `http.HttpDownloadHandler`（建议使用 `http10.HTTP10DownloadHandler`）。 - `scrapy.loader.ItemLoader._get_values`（建议使用 `use_get_xpathvalues`）。 - `scrapy.log`（建议使用 Logging）。 - `scrapy.spiders.BaseSpider`（建议使用 `Spider`）。 #### 6. Selector API 变更 - Scrapy 现在依赖 `parsel` 库（版本 ≥ 1.5），推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - 新增 `Selector.attrib` 和 `SelectorList.attrib` 属性，便于获取 HTML 属性。 - CSS 选择器被缓存，提升性能。 #### 7. Telnet 控制台 - Telnet 控制台现需要用户名和密码，提升了安全性。 #### 8. 新增功能与扩展性 - 新增 `from_crawler` 支持，允许从爬虫访问设置。 - 新增信号机制（如 `item_error` 和 `request_reached_downloader`）。 - 新增 `SitemapSpider` 的过滤功能。 - 支持动态调整下载延迟和最大并发请求。 #### 9. 文件与媒体管道增强 - 新增对 S3 存储的更多配置选项（如 AWS ENDPOINT URL、REGION NAME 等）。 #### 10. 其他改进 - 文档更新：修复了多个不清晰或误导性的描述。 - 代码清理：移除了部分冗余代码，提升了代码质量。 #### 11. 注意事项 - 使用 custom Selector 或 SelectorList 子类的用户需注意 `parsel` 的向后不兼容变更。 - `.extract()` 和 `.extract_first()` 方法暂无计划弃用。 #### 12. 编译文档 - 提供了使用 Sphinx 编译文档的快速指南，包括安装依赖、生成 HTML 和查看文档的步骤。