Scrapy 0.22 Documentation

语言	格式	评分
英语	.epub	3
摘要
文档介绍了Scrapy 0.22版本的特性，包括新功能、性能优化和bug修复。内容涵盖了安装指南、教程、示例项目以及基本概念。文档还提到了如何使用命令行工具、定义数据项、编写爬虫规则以及选择器的使用。此外，文档详细记录了各个版本的更新日志，包括新增功能、改进和修复内容。
AI总结
《Scrapy 0.22 Documentation》总结： ### 1. 概述 Scrapy 是一个功能强大的网络爬虫框架，适用于抓取和处理网站数据。文档提供了从入门到高级功能的全面指导，包括安装、教程、示例项目和核心概念。 ### 2. 获取帮助 - FAQ：快速查找常见问题。 - 索引和模块索引：按主题或模块查找信息。 - 邮件列表：在 [scrapy-users](http://groups.google.com/group/scrapy-users/) 查找或提问。 - IRC 频道：加入 `#scrapy` 获取实时帮助。 - GitHub 问题跟踪器：报告 bug 或提出功能请求。 ### 3. 核心功能 - 命令行工具：管理项目、启动爬虫等。 - Items：定义要抓取的数据结构。 - Spiders：编写爬虫规则，定义爬取范围和数据提取逻辑。 - Selectors：使用 XPath 或 CSS 选择器提取数据。 ### 4. 版本更新 #### 0.22 主要更新： - 新增功能： - Selector API 改进：支持 CSS 选择器，新增 `remove_namespaces()` 方法。 - Request/Response 属性：`url` 和 `body` 属性变为只读。 - ITEM_PIPELINES：从列表改为字典。 - FilesPipeline：支持文件处理，扩展了 ImagesPipeline 功能。 - XPathSelector：支持更灵活的 XPath 表达式。 - 性能改进： - HTTP 缓存：默认存储在项目目录中，提升效率。 - 日志和统计：优化了日志记录和统计功能。 - 弃用和移除： - 移除了 `UrlFilterMiddleware` 和 `ClientForm` 模块。 - 移除了部分实验性功能，如 `crawlspider v2`。 - 兼容性： - 支持 Python 3.3+，不再支持 Python 2.5。 - 提升了对 macOS 的兼容性。 #### 0.16 版本更新： - 新增功能： - Scrapy Contracts：用于测试爬虫的机制。 - AutoThrottle 扩展：默认启用，需手动开启。 - 持久队列：支持 SQLite 存储，便于服务器模式运行。 - XPath 后端：默认使用 lxml 替代 libxml2。 - 性能改进： - 优化了爬虫启动和数据处理流程。 - 弃用和移除： - 移除了 `Execution Queue` 和 `SpiderContext` 扩展。 - 移除了 `CONCURRENT_SPIDERS` 设置，改用 `scrapyd` 的 `maxproc`。 #### 0.14 版本更新： - 新增功能： - JSON 和 JSONLines 导出：支持嵌套数据。 - TrackRefs：默认启用，便于调试。 - 性能改进： - 优化了资源使用和日志处理。 - 弃用和移除： - 移除了部分旧模块和设置，如 `ENCODING_ALIASES`。 ### 5. 其他改进 - 扩展支持：新增了 `MetaRefreshMiddleware` 和 `RedirectMiddleware`。 - 文档完善：新增了命令行工具和扩展的详细文档。 - 用户体验：改进了 Windows 和 macOS 的兼容性，提升了安装和配置的便捷性。 ### 6. 获取最新信息 - GitHub 仓库：[https://github.com/scrapy/scrapy](https://github.com/scrapy/scrapy) - 博客：[http://blog.scrapy.org](http://blog.scrapy.org) 总结：Scrapy 0.22 版本在功能、性能和兼容性方面均有显著提升，特别在数据处理、扩展支持和用户体验上表现突出。