Scrapy 0.18 Documentation

语言	格式	评分
英语	.epub	3
摘要
文档主要介绍了Scrapy框架的版本更新情况，特别是0.18版本的改进和新功能。文档详细列出了每个版本的主要变更，包括新功能的添加、问题的修复、弃用的模块以及对旧功能的调整。例如，0.18版本引入了Spider Contracts、AutoThrottle扩展、改进的统计收集功能等。文档还提到了对Python 2.5和Twisted 2.5的支持已被移除，并提供了详细的变更日志和 commit 链接供用户参考。
AI总结
### Scrapy 0.18 文档总结 #### 1. 获取帮助 - 提供多种途径获取帮助：FAQ、索引、邮件列表、IRC频道和问题跟踪器。 - 邮件列表地址：[scrapy-users 邮件列表](http://groups.google.com/group/scrapy-users/) - IRC 频道：#scrapy #### 2. 入门指南 - 提供安装、教程和示例，帮助用户快速上手。 #### 3. 基本概念 - 命令行工具：用于管理 Scrapy 项目。 - Items：定义要抓取的数据。 - Spiders：编写爬虫规则。 - Selectors：使用 XPath 或 CSS 选择器提取数据。 #### 4. 版本更新 ##### 0.18.4（2013-10-10） - 修复 IPython 命名空间更新问题。 - 解决请求替换时的 `AlreadyCalledError`。 - 修复起始请求的延迟和潜在问题。 ##### 0.18.3（2013-10-03） - 修复起始请求的延迟问题。 - 提交表单时不提交重置输入。 - 延长单元测试超时以减少误报。 ##### 0.18.2（2013-09-03） - 修复 `scrapy check` 命令的兼容性问题。 ##### 0.18.1（2013-08-27） - 移除不必要的导入。 - 修复 Python 2.6 的格式问题。 - 修复潜在的数据丢失错误。 #### 5. 主要改进和新功能 - Spider Contracts：新增用于测试爬虫的机制。 - JSON 和 JSONLines 导出器：支持嵌套项。 - 信号和统计：移除全局和爬虫统计的分离，简化统计 API。 - 信号和统计：移除信号 `stats_spider_opened` 等，信号和统计 API 保持向后兼容。 - 扩展：新增 `AutoThrottle` 扩展，默认已安装，需手动启用。 - 请求处理：新增 `Request.replace()` 方法。 - 编码检测：移至 `w3lib.encoding` 模块。 - 弃用和移除： - 移除 `ClientForm` 和 `BeautifulSoup` 模块。 - 移除 `CONCURRENT_SPIDERS` 设置，建议使用 `scrapyd` 的 `maxproc`。 - 移除默认字段值支持和实验性 `CrawlSpider v2`。 #### 6. 兼容性和性能 - 提升 macOS 兼容性。 - 解决 SSL 握手问题和 Twisted 版本兼容性。 #### 7. 其他重要信息 - 弃用 Python 2.5 和 Twisted 2.5。 - 新增功能：AJAX 爬取支持、持久化调度器、支持suspend/Resume抓取。 #### 8. 总结 Scrapy 0.18 版本在功能、性能和兼容性方面均有显著提升，新增了多项实用功能如 Spider Contracts 和扩展的导出支持，同时移除了部分过时模块和设置，优化了统计和信号机制，提升了整体效率和用户体验。