搜索

epub文档 Scrapy 0.18 Documentation

523.49 KB 273 页 0 下载 75 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
文档主要介绍了Scrapy框架的版本更新情况,特别是0.18版本的改进和新功能。文档详细列出了每个版本的主要变更,包括新功能的添加、问题的修复、弃用的模块以及对旧功能的调整。例如,0.18版本引入了Spider Contracts、AutoThrottle扩展、改进的统计收集功能等。文档还提到了对Python 2.5和Twisted 2.5的支持已被移除,并提供了详细的变更日志和 commit 链接供用户参考。
AI总结
### Scrapy 0.18 文档总结 #### 1. 获取帮助 - 提供多种途径获取帮助:FAQ、索引、邮件列表、IRC频道和问题跟踪器。 - 邮件列表地址:[scrapy-users 邮件列表](http://groups.google.com/group/scrapy-users/) - IRC 频道:#scrapy #### 2. 入门指南 - 提供安装、教程和示例,帮助用户快速上手。 #### 3. 基本概念 - **命令行工具**:用于管理 Scrapy 项目。 - **Items**:定义要抓取的数据。 - **Spiders**:编写爬虫规则。 - **Selectors**:使用 XPath 或 CSS 选择器提取数据。 #### 4. 版本更新 ##### 0.18.4(2013-10-10) - 修复 IPython 命名空间更新问题。 - 解决请求替换时的 `AlreadyCalledError`。 - 修复起始请求的延迟和潜在问题。 ##### 0.18.3(2013-10-03) - 修复起始请求的延迟问题。 - 提交表单时不提交重置输入。 - 延长单元测试超时以减少误报。 ##### 0.18.2(2013-09-03) - 修复 `scrapy check` 命令的兼容性问题。 ##### 0.18.1(2013-08-27) - 移除不必要的导入。 - 修复 Python 2.6 的格式问题。 - 修复潜在的数据丢失错误。 #### 5. 主要改进和新功能 - **Spider Contracts**:新增用于测试爬虫的机制。 - **JSON 和 JSONLines 导出器**:支持嵌套项。 - **信号和统计**:移除全局和爬虫统计的分离,简化统计 API。 - **信号和统计**:移除信号 `stats_spider_opened` 等,信号和统计 API 保持向后兼容。 - **扩展**:新增 `AutoThrottle` 扩展,默认已安装,需手动启用。 - **请求处理**:新增 `Request.replace()` 方法。 - **编码检测**:移至 `w3lib.encoding` 模块。 - **弃用和移除**: - 移除 `ClientForm` 和 `BeautifulSoup` 模块。 - 移除 `CONCURRENT_SPIDERS` 设置,建议使用 `scrapyd` 的 `maxproc`。 - 移除默认字段值支持和实验性 `CrawlSpider v2`。 #### 6. 兼容性和性能 - 提升 macOS 兼容性。 - 解决 SSL 握手问题和 Twisted 版本兼容性。 #### 7. 其他重要信息 - **弃用 Python 2.5 和 Twisted 2.5**。 - **新增功能**:AJAX 爬取支持、持久化调度器、支持suspend/Resume抓取。 #### 8. 总结 Scrapy 0.18 版本在功能、性能和兼容性方面均有显著提升,新增了多项实用功能如 Spider Contracts 和扩展的导出支持,同时移除了部分过时模块和设置,优化了统计和信号机制,提升了整体效率和用户体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 266 页请下载阅读 -
文档评分
请文明评论,理性发言.