Scrapy 2.11 Documentation

语言	格式	评分
英语	.epub	3
摘要
《Scrapy 2.11 Documentation》详细介绍了Scrapy框架的最新版本，包括新功能、改进和弃用的功能。文档涵盖了Scrapy的安装、基本概念、命令行工具的使用，以及如何编写第一个Scrapy项目。内容还涉及爬虫框架的使用方法、与第三方服务的集成、选择器的改进、文件管道和媒体管道的新功能，以及如何处理爬取过程中的重复数据和错误。
AI总结
### 《Scrapy 2.11 文档》总结 #### 1. Scrapy 概述 - Scrapy 是一个快速的高级网络爬取和抓取框架，用于爬取网站并提取结构化数据。 - 用途广泛：数据挖掘、网站监控、自动化测试等。 - 核心功能：爬取、数据提取、存储和处理。 #### 2. 获取帮助 - 提供多种途径：FAQ、索引、Stack Overflow、Reddit、邮件列表、IRC频道、Discord社区等。 - 资源： - [Stack Overflow](https://stackoverflow.com/tags/scrapy) - [Reddit](https://www.reddit.com/r/scrapy/) - [邮件列表](https://groups.google.com/forum/#!forum/scrapy-users) - [IRC 频道](#scrapy) - [Discord](https://discord.gg/mv3yErfpvq) #### 3. 安装与入门 - 提供安装指南、教程和示例项目，帮助用户快速上手。 #### 4. 基本概念与工具 - 命令行工具：用于管理 Scrapy 项目。 - 新功能： - parsel 更新：推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - Selector.attrib 和 SelectorList.attrib：简化 HTML 属性获取。 - CSS 选择器缓存：提升性能。 #### 5. Telnet 控制台 - 更新：现在需要用户名和密码，提升了安全性。 #### 6. 新扩展性功能 - Feed 导出器与存储：支持 `from_crawler`，允许访问 Scrapy 设置。 - 重复过滤器：支持 `from_crawler`，可访问设置或蜘蛛。 - 信号改进：新增 `item_error` 和 `request reached downloader` 信号。 - SitemapSpider：新增 `sitemap_filter()` 方法。 - Downloader Handler：延迟加载，优化错误处理。 #### 7. 文件管道与媒体管道 - S3FilesStore：新增 AWS 参数支持（如 ENDPOINT URL、SSL、VERIFY、REGION）。 - Google Cloud Storage：支持 ACL 配置。 #### 8. scrapy.contracts 改进 - 异常处理：改进了 contracts 代码的异常处理。 - dont_filter=True：允许测试不同回调。 #### 9. 版本更新与改进 - Scrapy 0.22.0： - HTTPCacheMiddleware 后端切换到文件系统。 - 支持 CONNECT 方法代理 HTTPS URL。 - 命名空间支持、Spider 命名更改等。 - Scrapy 0.20.2： - 修复兼容性问题，更新文档格式。 - Scrapy 0.24.1： - 修复兼容性问题，增加向后兼容性。 - Scrapy 0.18.0： - 测试套件改进、AJAX 抓取支持、Cookie 处理优化等。 #### 10. Scrapy 0.10 更新 - 新功能： - scrapyd：生产环境部署服务。 - 持久队列：支持 SQLite 基础的队列。 - 日志记录与扩展：新增 LogStats 扩展。 - API 改进： - 新增 `open_spider()` 和 `close_spider()` 方法。 - `Request` 对象的 `url` 和 `body` 属性变为只读。 #### 11. 弃用与移除 - 移除： - `scrapy.http.TextResponse.body_as_unicode` - `scrapy.item.BaseItem` - `scrapy.Spider.make_requests_from_url` - 弃用： - `scrapy.utils.reqser`：建议使用 `Request.to_dict` 和 `scrapy.utils.request.request_from_dict`。 - `scrapy.squeues` 中的队列类：建议使用新的队列实现。 #### 12. 新功能（Scrapy 2.11） - 项目过滤：支持通过规则控制导出的项。 - 信号与扩展：新增 `item_error` 和 `request reached downloader` 信号。 - Python 3 支持：优化代码以使用现代 Python 语法。 #### 总结 Scrapy 2.11 提供了丰富的功能和性能优化，支持多种数据处理和存储方式，同时注重扩展性和安全性。文档详细介绍了新功能、改进和弃用内容，帮助用户更好地理解和使用 Scrapy。