Scrapy 0.16 Documentation

语言	格式	评分
英语	.pdf	3
摘要
文档详细介绍了Scrapy框架的版本更新历史，包括各个版本的功能改进、问题修复及新增功能。主要内容涵盖Scrapy的设置、扩展、信号、日志记录和版本控制等方面的变化。文档还提到了Scrapy的API稳定性目标以及其实验性功能的使用注意事项。
AI总结
### Scrapy 0.16 版本更新总结 #### 1. 主要新功能和改进 - Spider Contracts：新增了用于测试爬虫的机制，支持以正式且可重复的方式验证爬虫行为。 - runspider命令选项：新增了`-o`和`-t`选项，支持将爬取结果输出到指定文件或转换为不同格式。 - 扩展功能：文档中提到`AutoThrottle`扩展已默认安装，但仍需手动启用。 - 统计收集器优化：重构了统计功能，移除了全局统计和爬虫统计的分离，简化了统计机制，同时保持了向后兼容性。 - 信号机制：移除了`Signals`单例，信号现在需通过`Crawler.signals`属性访问。 #### 2. 版本更新日志 ##### 0.16.0（2012-10-18） - 新增`process_start_requests()`方法到爬虫中间件。 - 移除了`Signals`单例，信号访问方式改为通过`Crawler.signals`。 - 新增文档内容，包括`AutoThrottle`扩展的使用说明。 ##### 0.16.1（2012-10-26） - 修复了`LogStats`扩展在之前错误合并后的问题。 - 改善了`scrapy.conf.settings`的向后兼容性。 - 新增了扩展如何访问爬虫统计的文档。 ##### 0.16.2（2012-11-09） - 支持Python 2.6的兼容性。 - 新增了`scrapy contracts`的verbose选项和unittest-like的输出格式。 - 文档中提到`SpiderState`在Windows平台上的修复。 ##### 0.16.3（2012-12-07） - 修复了下载延迟的并行限制问题，确保延迟策略正确执行。 - 改善了图片管道错误日志的详细信息。 - 提升了macOS的兼容性。 ##### 0.16.4（2013-01-23） - 修复了文档中的拼写错误。 - 新增了关于如何禁用扩展的文档。 - 修复了错误消息格式化问题。 ##### 0.16.5（2013-05-30） - 修复了文档中对下载器中间件的不准确描述。 - 移除了已失效的链接，如diveintopython.org。 - 修复了爬虫未指定时的`scrapy parse`命令问题。 #### 3. 版本控制与API稳定性 - Scrapy采用`A.B.C`的版本号格式，其中`A`为重大版本号，`B`为发布号，`C`为修复号。 - API稳定性是Scrapy 1.0的重要目标，目前仍在努力中。私有方法（以`__`开头）不保证稳定，其他API在1.0发布前将逐步稳定。 #### 4. 其他重要信息 - 实验性功能：文档提到目前没有实验性功能，但使用时需谨慎。 - 弃用功能：部分旧功能如`ClientForm`和`SpiderState`在特定版本中被移除或弃用。 - 设置调整：新增了多个设置选项，如`HTTPCACHE_IGNORE_SCHEMES`和`SPIDER_QUEUE_CLASS`，并移除了部分旧设置。 #### 5. 总结 Scrapy 0.16版本在功能增强、性能优化和文档改进方面均有较大投入，新增了Spider Contracts等重要功能，同时修复了多个关键问题，提升了向后兼容性和用户体验。