| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
文档主要介绍了Scrapy框架的版本更新情况,特别是0.18版本的改进和新功能。文档详细列出了每个版本的主要变更,包括新功能的添加、问题的修复、弃用的模块以及对旧功能的调整。例如,0.18版本引入了Spider Contracts、AutoThrottle扩展、改进的统计收集功能等。文档还提到了对Python 2.5和Twisted 2.5的支持已被移除,并提供了详细的变更日志和 commit 链接供用户参考。 | ||
| AI总结 | ||
### Scrapy 0.18 文档总结
#### 1. 获取帮助
- 提供多种途径获取帮助:FAQ、索引、邮件列表、IRC频道和问题跟踪器。
- 邮件列表地址:[scrapy-users 邮件列表](http://groups.google.com/group/scrapy-users/)
- IRC 频道:#scrapy
#### 2. 入门指南
- 提供安装、教程和示例,帮助用户快速上手。
#### 3. 基本概念
- **命令行工具**:用于管理 Scrapy 项目。
- **Items**:定义要抓取的数据。
- **Spiders**:编写爬虫规则。
- **Selectors**:使用 XPath 或 CSS 选择器提取数据。
#### 4. 版本更新
##### 0.18.4(2013-10-10)
- 修复 IPython 命名空间更新问题。
- 解决请求替换时的 `AlreadyCalledError`。
- 修复起始请求的延迟和潜在问题。
##### 0.18.3(2013-10-03)
- 修复起始请求的延迟问题。
- 提交表单时不提交重置输入。
- 延长单元测试超时以减少误报。
##### 0.18.2(2013-09-03)
- 修复 `scrapy check` 命令的兼容性问题。
##### 0.18.1(2013-08-27)
- 移除不必要的导入。
- 修复 Python 2.6 的格式问题。
- 修复潜在的数据丢失错误。
#### 5. 主要改进和新功能
- **Spider Contracts**:新增用于测试爬虫的机制。
- **JSON 和 JSONLines 导出器**:支持嵌套项。
- **信号和统计**:移除全局和爬虫统计的分离,简化统计 API。
- **信号和统计**:移除信号 `stats_spider_opened` 等,信号和统计 API 保持向后兼容。
- **扩展**:新增 `AutoThrottle` 扩展,默认已安装,需手动启用。
- **请求处理**:新增 `Request.replace()` 方法。
- **编码检测**:移至 `w3lib.encoding` 模块。
- **弃用和移除**:
- 移除 `ClientForm` 和 `BeautifulSoup` 模块。
- 移除 `CONCURRENT_SPIDERS` 设置,建议使用 `scrapyd` 的 `maxproc`。
- 移除默认字段值支持和实验性 `CrawlSpider v2`。
#### 6. 兼容性和性能
- 提升 macOS 兼容性。
- 解决 SSL 握手问题和 Twisted 版本兼容性。
#### 7. 其他重要信息
- **弃用 Python 2.5 和 Twisted 2.5**。
- **新增功能**:AJAX 爬取支持、持久化调度器、支持suspend/Resume抓取。
#### 8. 总结
Scrapy 0.18 版本在功能、性能和兼容性方面均有显著提升,新增了多项实用功能如 Spider Contracts 和扩展的导出支持,同时移除了部分过时模块和设置,优化了统计和信号机制,提升了整体效率和用户体验。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
266 页请下载阅读 -
文档评分














Scrapy 0.18 Documentation
Scrapy 2.7 Documentation