搜索

pdf文档 Scrapy 0.24 Documentation

988.92 KB 222 页 0 下载 35 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
《Scrapy 0.24 Documentation》主要介绍了Scrapy框架的命令、设置、中间件、爬虫结构以及版本控制和API稳定性。文档详细列出了Scrapy的各个命令及其使用方法,包括爬取、部署、编辑等操作。同时,文档还介绍了各种设置参数,如并发请求限制、下载延迟等。此外,文档提到了Scrapy的版本策略,即使用奇数版本号表示开发版本,偶数版本号表示稳定版本。文档还列出了0.24版本中的新功能和改进,包括HTTP缓存后端切换到文件系统、支持CONNECT方法处理HTTPS URL、增加处理AJAX可爬页面的中间件等。最后,文档强调了API稳定性和实验性功能的使用注意事项。
AI总结
### Scrapy 0.24 文档总结 #### 1. 版本信息 - **版本**:0.24.6 - **发布日期**:2014-01-17 - **主要增强**: - **HTTP缓存**:默认使用文件系统后端,旧版本用户可通过设置 `HTTPCACHE_STORAGE` 恢复旧后端。 - **CONNECT方法**:支持通过CONNECT方法代理HTTPS URL。 - **AJAX爬取**:新增Google AJAX爬取标准支持的中间件。 - **Spider重命名**:`scrapy.spider.BaseSpider` 重命名为 `scrapy.spider.Spider`。 - **EXSLT命名空间**:默认注册EXSLT命名空间。 - **RFPDupeFilter**:增强可继承性。 - **Python 3支持**:改进测试覆盖率,为Python 3兼容性做准备。 - **日志级别**:启动信息提升为INFO级别。 - **设置扩展**:支持通过设置定义HTTP错误处理。 - **文档改进**:修复多个文档问题,提升准确性。 - **主要修复**: - **选择器导入**:修复CrawlSpider模板中的选择器导入问题。 - **XPath警告**:修复XPathItemLoader和XPathSelector的警告机制。 - **内存统计**:修复多个内存统计问题。 #### 2. 版本控制与API稳定性 - **版本规则**: - 三位版本号 `A.B.C`,其中: - `A`:主版本号,变化极少。 - `B`:发布号,包含重大功能和兼容性调整。 - `C`:修复号,专注于错误修复。 - 偶数 `B` 表示稳定分支,奇数 `B` 表示开发版本。 - **API稳定性**: - 1.0版本前,API可能继续变化,但核心功能将保持稳定。 - 私有方法(以单下划线开头)不保证稳定。 #### 3. 实验性功能 - **外部命令**:支持通过`setup.py`添加外部命令,如: ```python setup(name='scrapy-mymodule', entry_points={ 'scrapy.commands': [ 'my_command=my_scrapy_module.commands:MyCommand', ], }, ) ``` - **使用风险**:实验性功能文档可能不完善,使用需谨慎。 #### 4. 其他重要信息 - **贡献指南**:文档包含如何为Scrapy贡献代码的详细说明。 - **项目结构**:文档详细说明了Scrapy项目的文件结构。 - **Scrapyd**: - 每个爬虫使用独立进程。 - 默认保留最新5个日志文件。 - 提供基本Web界面:`http://localhost:6800`。 #### 5. 设置与中间件 - **新设置**: - `HTTPCACHE_ENABLED`:默认关闭。 - `DOWNLOAD_DELAY`:控制下载延迟。 - `DEPTH_LIMIT`:默认禁用深度限制。 - **中间件**: - `CookiesMiddleware`:管理Cookie。 - `DepthMiddleware`:控制爬取深度。 - `DefaultHeadersMiddleware`:设置默认请求头。 #### 6. 命令与工具 - **主要命令**: - `crawl`:启动爬虫。 - `deploy`:部署爬虫到Scrapyd。 - `shell`:启动交互式Shell。 - `version`:显示Scrapy版本。 #### 7. 兼容性与注意事项 - **向后兼容**: - `CLOSESPIDER_ITEMPASSED` 设置重命名为 `CLOSESPIDER_ITEMCOUNT`。 - `HTTPCACHE_EXPIRATION_SECS` 的语义调整:0表示“永不过期”。 - **弃用功能**: - 移除 `CONCURRENT_SPIDERS` 设置,建议使用 `scrapyd` 的 `maxproc` 替代。 #### 8. 总结 Scrapy 0.24.6 是一个功能丰富且稳定的版本,新增了多项重要功能和改进,同时修复了多个已知问题。文档详细介绍了版本控制、API稳定性、实验性功能及如何为项目做贡献,适合开发者深入了解和使用。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 215 页请下载阅读 -
文档评分
请文明评论,理性发言.