Scrapy 0.18 Documentation

语言	格式	评分
英语	.pdf	3
摘要
文档主要介绍了Scrapy框架的版本更新、功能改进和使用指南。内容涵盖了安装指南、基础概念（如命令行工具、Items、Spiders、链接抽取器、选择器、Item加载器、Scrapy Shell、Item Pipeline、Feed导出）、内置服务（如日志记录、统计收集、发送电子邮件、Telnet控制台、Web服务）以及解决特定问题的方法（如常见问题解答、调试Spider、Spider合同、常见做法、大规模爬取、使用Firefox和Firebug进行抓取、调试内存泄漏、下载项目图像、Ubuntu包、Scrapyd）。文档还详细说明了版本策略和API稳定性，强调了实验性功能的使用注意事项。
AI总结
### Scrapy 0.18 文档总结 #### 1. 版本更新与发布 - 0.18.4：修复了FAQ中关于代理链接的问题，修正了文档中的拼写错误。 - 0.16.5：修复了文档中下载器中间件的不准确描述，移除了对`diveintopython.org`的引用。 - 0.16.4：修复了文档中的拼写错误，改进了错误日志格式，修复了`scrapy parse`命令未指定Spider时的错误。 - 0.16.3：修复了文档中的拼写错误，改进了macOS兼容性。 - 0.16.2：修复了日志统计扩展的问题，改进了文档中对爬虫统计的说明。 - 0.16.1：修复了`LogStats`扩展的问题，改进了文档中对爬虫设置的说明。 - 0.16.0：引入了Spider Contracts（用于测试Spider的可重复性和正式性），增加了`-o`和`-t`选项到`runspider`命令，新增了`AutoThrottle`扩展，默认启用了`TelnetConsole`和`Web Service`。 #### 2. 主要功能与改进 - Spider Contracts：提供了一种测试Spider的机制，确保Spider的行为可重复。 - 命令行工具：新增了`-o`和`-t`选项，支持将爬取结果输出为不同格式。 - 内置服务： - 日志记录：改进了日志系统，支持更灵活的输出。 - 统计收集：简化了统计功能，移除了全局和Spider级别的统计分离。 - Telnet控制台：允许通过Telnet连接到爬虫，进行实时调试。 - Web服务：新增了Web接口，方便监控和管理爬虫。 - 调试与测试： - 提供了调试内存泄漏的方法。 - 支持通过Firefox和Firebug进行调试。 - 新增了`process_start_requests()`方法，用于自定义爬虫启动逻辑。 #### 3. 版本控制与API稳定性 - 版本号规则：采用`A.B.C`格式，`A`为大版本号，`B`为功能发布版本，`C`为修复版本。 - API稳定性：Scrapy致力于在1.0版本时实现API的长期稳定，新增功能会尽量保持向后兼容。 #### 4. 实验性功能 - 扩展命令：允许通过外部库添加自定义命令。 - 新功能：如`REFERER_ENABLED`设置、新的默认选择器后端（`lxml`）等。 #### 5. 测试与贡献 - 测试方法：使用Twisted的`trial`框架，支持通过`runtests.sh`运行所有测试。 - 贡献指南：要求所有新功能和修复必须包含测试用例，以确保代码质量。 #### 6. 其他重要信息 - 兼容性：移除了对Python 2.5和Twisted 2.5的支持。 - 默认设置：默认启用了`AutoThrottle`扩展，日志格式改为字典输出，支持JSON和JSONLines导出嵌套项。 - 统计跟踪：新增了日志数量和响应数量的统计功能。总结来看，Scrapy 0.18版本在功能扩展、性能优化和用户体验方面均有较大提升，新增了多项实用功能，同时修复了多个已知问题，进一步提升了爬虫的稳定性和可维护性。