搜索

pdf文档 Scrapy 0.16 Documentation

931.99 KB 203 页 0 下载 92 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了Scrapy框架的版本更新历史,包括各个版本的功能改进、问题修复及新增功能。主要内容涵盖Scrapy的设置、扩展、信号、日志记录和版本控制等方面的变化。文档还提到了Scrapy的API稳定性目标以及其实验性功能的使用注意事项。
AI总结
### Scrapy 0.16 版本更新总结 #### 1. 主要新功能和改进 - **Spider Contracts**:新增了用于测试爬虫的机制,支持以正式且可重复的方式验证爬虫行为。 - **runspider命令选项**:新增了`-o`和`-t`选项,支持将爬取结果输出到指定文件或转换为不同格式。 - **扩展功能**:文档中提到`AutoThrottle`扩展已默认安装,但仍需手动启用。 - **统计收集器优化**:重构了统计功能,移除了全局统计和爬虫统计的分离,简化了统计机制,同时保持了向后兼容性。 - **信号机制**:移除了`Signals`单例,信号现在需通过`Crawler.signals`属性访问。 #### 2. 版本更新日志 ##### 0.16.0(2012-10-18) - 新增`process_start_requests()`方法到爬虫中间件。 - 移除了`Signals`单例,信号访问方式改为通过`Crawler.signals`。 - 新增文档内容,包括`AutoThrottle`扩展的使用说明。 ##### 0.16.1(2012-10-26) - 修复了`LogStats`扩展在之前错误合并后的问题。 - 改善了`scrapy.conf.settings`的向后兼容性。 - 新增了扩展如何访问爬虫统计的文档。 ##### 0.16.2(2012-11-09) - 支持Python 2.6的兼容性。 - 新增了`scrapy contracts`的verbose选项和unittest-like的输出格式。 - 文档中提到`SpiderState`在Windows平台上的修复。 ##### 0.16.3(2012-12-07) - 修复了下载延迟的并行限制问题,确保延迟策略正确执行。 - 改善了图片管道错误日志的详细信息。 - 提升了macOS的兼容性。 ##### 0.16.4(2013-01-23) - 修复了文档中的拼写错误。 - 新增了关于如何禁用扩展的文档。 - 修复了错误消息格式化问题。 ##### 0.16.5(2013-05-30) - 修复了文档中对下载器中间件的不准确描述。 - 移除了已失效的链接,如diveintopython.org。 - 修复了爬虫未指定时的`scrapy parse`命令问题。 #### 3. 版本控制与API稳定性 - Scrapy采用`A.B.C`的版本号格式,其中`A`为重大版本号,`B`为发布号,`C`为修复号。 - API稳定性是Scrapy 1.0的重要目标,目前仍在努力中。私有方法(以`__`开头)不保证稳定,其他API在1.0发布前将逐步稳定。 #### 4. 其他重要信息 - **实验性功能**:文档提到目前没有实验性功能,但使用时需谨慎。 - **弃用功能**:部分旧功能如`ClientForm`和`SpiderState`在特定版本中被移除或弃用。 - **设置调整**:新增了多个设置选项,如`HTTPCACHE_IGNORE_SCHEMES`和`SPIDER_QUEUE_CLASS`,并移除了部分旧设置。 #### 5. 总结 Scrapy 0.16版本在功能增强、性能优化和文档改进方面均有较大投入,新增了Spider Contracts等重要功能,同时修复了多个关键问题,提升了向后兼容性和用户体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 196 页请下载阅读 -
文档评分
请文明评论,理性发言.