搜索

pdf文档 Scrapy 2.10 Documentation

1.73 MB 419 页 0 下载 112 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了Scrapy 2.10版本的更新内容,包括新功能、性能改进、兼容性调整以及问题修复。主要亮点包括对Python 3.11的支持、对异步回调的支持改进、默认启用Asyncio支持、输出字段名称支持任意字符串等。文档还提到了对某些过时功能的弃用和对依赖项版本的更新要求。
AI总结
《Scrapy 2.10 Documentation》主要介绍了Scrapy框架的最新版本功能、改进和相关文档。以下是文档的核心内容总结: ### 1. 版本更新与新功能 - **Scrapy 2.10.1**:修复了文档中的一些小错误,包括请求对象文档的错误、链接提取器文档的缺陷,以及移除与SQLite支持相关的过时代码。 - **Scrapy 0.14.2**:修复了内存泄漏问题、AJAX爬取的Unicode URL支持、文件和图片下载处理的改进等。 - **Scrapy 0.14**:新增了AJAX可爬取URL支持、持久化请求调度器(支持暂停和恢复爬取),并引入了新的命令行选项`-o`用于快速导出 scraped items。 - **Scrapy 0.16.1**:修复了LogStats扩展的问题,改进了与Twisted的兼容性,并弃用了Python 2.5和Twisted 2.5。 - **Scrapy 2.7.0**:新增了对Python 3.11的支持,移除对Python 3.6的支持,改进了异步回调支持,并默认启用Asyncio。 ### 2. 核心功能改进 - **命令行工具**:新增了`scrapy`命令,统一了项目控制,并支持bash补全。 - **Spider Contracts**:新增了用于测试Spider的正式机制。 - **持久化调度器**:支持将请求存储到磁盘,允许爬取任务的暂停和恢复。 - **Feed Exporters**:支持插件式后端,新增了JSON和JSONLines导出对嵌套项目的全面支持。 - **信号与统计**:改进了信号和统计功能,新增了`open_spider`和`close_spider`方法。 - **日志与调试**:Scrapy Shell默认显示日志,新增了调试内存泄漏的方法。 ### 3. 技术改进与兼容性 - **选择器后端**:默认使用lxml而非libxml2。 - **图片管道**:简化了图片管道的使用,不再需要自定义子类。 - **请求与响应**:新增了`dont_redirect`和`dont_retry`元数据键,支持自定义请求头。 - **扩展与插件**:新增了TrackRefs扩展和StackTraceDump扩展,改进了扩展的文档。 - **资源管理**:使用`resource`模块替代`scrapy.utils.memory`模块,改进了资源使用统计。 ### 4. 其他重要信息 - **文档改进**:新增了对Scrapy命令行工具、Feed导出器和Spider Contracts的详细文档。 - **重大变化**:弃用了`libxml2`选择器后端、`ClientForm`和`BeautifulSoup`模块,以及部分过时的API。 - **兼容性问题**:修复了与Twisted 11.1.0及以上版本的兼容性问题,改进了与Pillow库的兼容性。 ### 5. 总结 Scrapy 2.10版本在功能、性能和易用性方面均有显著提升,新增了对AJAX爬取、持久化调度和异步处理的支持,同时修复了多项已知问题并改进了文档。开发者可以根据需求选择合适的版本,并参考官方文档进行部署和优化。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 412 页请下载阅读 -
文档评分
请文明评论,理性发言.