搜索

pdf文档 Scrapy 0.18 Documentation

929.55 KB 201 页 0 下载 51 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了Scrapy框架的版本更新、功能改进和使用指南。内容涵盖了安装指南、基础概念(如命令行工具、Items、Spiders、链接抽取器、选择器、Item加载器、Scrapy Shell、Item Pipeline、Feed导出)、内置服务(如日志记录、统计收集、发送电子邮件、Telnet控制台、Web服务)以及解决特定问题的方法(如常见问题解答、调试Spider、Spider合同、常见做法、大规模爬取、使用Firefox和Firebug进行抓取、调试内存泄漏、下载项目图像、Ubuntu包、Scrapyd)。文档还详细说明了版本策略和API稳定性,强调了实验性功能的使用注意事项。
AI总结
### Scrapy 0.18 文档总结 #### 1. 版本更新与发布 - **0.18.4**:修复了FAQ中关于代理链接的问题,修正了文档中的拼写错误。 - **0.16.5**:修复了文档中下载器中间件的不准确描述,移除了对`diveintopython.org`的引用。 - **0.16.4**:修复了文档中的拼写错误,改进了错误日志格式,修复了`scrapy parse`命令未指定Spider时的错误。 - **0.16.3**:修复了文档中的拼写错误,改进了macOS兼容性。 - **0.16.2**:修复了日志统计扩展的问题,改进了文档中对爬虫统计的说明。 - **0.16.1**:修复了`LogStats`扩展的问题,改进了文档中对爬虫设置的说明。 - **0.16.0**:引入了**Spider Contracts**(用于测试Spider的可重复性和正式性),增加了`-o`和`-t`选项到`runspider`命令,新增了`AutoThrottle`扩展,默认启用了`TelnetConsole`和`Web Service`。 #### 2. 主要功能与改进 - **Spider Contracts**:提供了一种测试Spider的机制,确保Spider的行为可重复。 - **命令行工具**:新增了`-o`和`-t`选项,支持将爬取结果输出为不同格式。 - **内置服务**: - **日志记录**:改进了日志系统,支持更灵活的输出。 - **统计收集**:简化了统计功能,移除了全局和Spider级别的统计分离。 - **Telnet控制台**:允许通过Telnet连接到爬虫,进行实时调试。 - **Web服务**:新增了Web接口,方便监控和管理爬虫。 - **调试与测试**: - 提供了调试内存泄漏的方法。 - 支持通过Firefox和Firebug进行调试。 - 新增了`process_start_requests()`方法,用于自定义爬虫启动逻辑。 #### 3. 版本控制与API稳定性 - **版本号规则**:采用`A.B.C`格式,`A`为大版本号,`B`为功能发布版本,`C`为修复版本。 - **API稳定性**:Scrapy致力于在1.0版本时实现API的长期稳定,新增功能会尽量保持向后兼容。 #### 4. 实验性功能 - **扩展命令**:允许通过外部库添加自定义命令。 - **新功能**:如`REFERER_ENABLED`设置、新的默认选择器后端(`lxml`)等。 #### 5. 测试与贡献 - **测试方法**:使用Twisted的`trial`框架,支持通过`runtests.sh`运行所有测试。 - **贡献指南**:要求所有新功能和修复必须包含测试用例,以确保代码质量。 #### 6. 其他重要信息 - **兼容性**:移除了对Python 2.5和Twisted 2.5的支持。 - **默认设置**:默认启用了`AutoThrottle`扩展,日志格式改为字典输出,支持JSON和JSONLines导出嵌套项。 - **统计跟踪**:新增了日志数量和响应数量的统计功能。 总结来看,Scrapy 0.18版本在功能扩展、性能优化和用户体验方面均有较大提升,新增了多项实用功能,同时修复了多个已知问题,进一步提升了爬虫的稳定性和可维护性。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 194 页请下载阅读 -
文档评分
请文明评论,理性发言.