搜索

pdf文档 Scrapy 2.11 Documentation

1.76 MB 425 页 0 下载 52 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了Scrapy 2.11版本的更新内容,包括新增功能、改进和弃用项。主要亮点包括:新增对Python 3.11的支持,移除对Python 3.6的支持;引入对AJAX可爬链接的支持;新增持久化爬虫队列,允许暂停和恢复爬取;优化异步回调支持和libxml2 XPathSelector性能。文档还提到一些弃用的模块和设置,如decompression中间件和DBM作为默认缓存后端。此外,还包括Selctor API的改进和Telnet控制台的安全性增强。
AI总结
以下是《Scrapy 2.11 Documentation》的中文总结: --- ### **Scrapy 2.11 文档总结** #### **1. 版本信息** - **版本号**:Scrapy 2.11.1 - **发布日期**:2024年3月1日 --- #### **2. 主要内容结构** 文档内容分为以下几个主要部分: 1. **入门指南** - 包含安装指南、教程、示例等内容,适合新手快速上手。 2. **基础知识** - 介绍了Scrapy的核心概念,包括命令行工具、爬虫、选择器、项目管道、请求与响应等。 3. **内置服务** - 包括日志记录、统计收集、邮件发送、Telnet控制台等功能。 4. **解决特定问题** - 提供常见问题解答、调试技巧、爬虫合约、动态内容抓取等实用内容。 --- #### **3. 新功能与改进** - **新功能**: - 支持AJAX可爬取URL。 - 新增持久化调度器,支持暂停和恢复爬虫。 - 增加`-o`选项,支持将抓取的物品导出到文件。 - 支持通过`scrapyd`的`schedule.json` API传递自定义设置。 - 新增对Python 3.11的支持,移除对Python 3.6的支持。 - 默认启用`asyncio`支持。 - 选择器API改进:推荐使用`.get()`和`.getall()`方法,替代`.extract()`和`.extract_first()`。 - 新增`.attrib`属性,简化HTML元素属性的获取。 - CSS选择器缓存优化。 - **其他改进**: - 提升`libxml2` XPath选择器性能。 - 修复多个已知问题,包括请求对象文档错误、链接抽取器缺陷等。 - 改进日志记录、统计收集和内存泄漏调试功能。 --- #### **4. 弃用与移除** - **已弃用**: - `scrapy.downloadermiddlewares.decompression`模块。 - `DBM`作为默认HTTP缓存存储后端(被`file`替换)。 - `REFERER_ENABLED`设置(已移除)。 - `TRACK_REFS`设置(已移除)。 - `DBM`作为默认HTTP缓存存储后端。 - **已移除**: - 不再支持`sqlite`相关代码。 - 移除多个旧模块,如`scrapy.command`、`scrapy.contrib`等。 - 移除`CrawlerSettings`类和`Settings.overrides`、`Settings.defaults`属性。 --- #### **5. 兼容性与注意事项** - **Python版本要求**: - 支持Python 3.7及以上版本,移除对Python 3.6的支持。 - **依赖项更新**: - `lxml`:从3.5.0升级到4.3.0。 - `Pillow`:从4.0.0升级到7.1.0。 - `zope.interface`:从5.0.0升级到5.1.0。 --- #### **6. 文档更新** - 修复了多个文档错误和排版问题。 - 更新了选择器文档,以匹配最新的`parsel`库。 - 新增了使用浏览器开发者工具进行抓取的教程。 - 文档新增了`SCRAPY_PROJECT`环境变量的说明。 --- #### **7. 质量保障与维护** - 重新启用部分之前被禁用的`flake8`检查。 - 忽略无害的弃用警告。 - 现代化CI配置,提升测试效率。 - 修复了多个潜在的内存泄漏和性能问题。 --- #### **8. 其他** - 新增了调试爬虫的详细指南。 - 提供了如何报告问题和编写补丁的详细说明。 - 更新了代码规范和贡献者指南,采用 Contributor Covenant v2.1。 --- 总结: Scrapy 2.11版本在功能、性能和文档方面均有显著提升,新增了对异步爬虫和AJAX爬取的支持,优化了选择器和调度器的性能,并修复了多个已知问题。同时,文档内容更加完善,适合开发者快速上手和深入使用。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 418 页请下载阅读 -
文档评分
请文明评论,理性发言.