搜索

pdf文档 Scrapy 2.5 Documentation

1.56 MB 366 页 0 下载 79 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了Scrapy 2.5.1版本的更新内容,包括Selector API的改进、Telnet控制台的安全性增强、Crawler API的功能扩展以及新引入的扩展性功能。文档还提到了parsel库的升级、弃用代码的清理以及对旧模块的兼容性调整。主要内容涵盖新功能、API变更、性能优化和安全性改进。
AI总结
### Scrapy 2.5 Documentation 总结 #### 1. 版本更新 - **Scrapy 2.5.1 发布**:修复了各种 bug,改进了功能和可用性。 - **弃用代码清理**:移除了部分已弃用的代码和模块,如 `scrapy.command`、`scrapy.contrib` 等。 #### 2. 主要功能变化 - **Selector API 更新**: - 推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`,代码更简洁易读。 - 新增 `Selector.attrib` 和 `SelectorList.attrib` 属性,方便获取 HTML 属性。 - CSS 选择器在 `parsel >=1.5` 中实现缓存,提升性能。 - **Telnet Console**: - 需要用户名和密码认证,提升了安全性。 - **新扩展性功能**: - `from_crawler` 支持扩展 feed exporters、feed storages 和 dupefilters。 - 新增 `item_error` 和 `request_reached_downloader` 信号。 - `SitemapSpider` 新增 `sitemap_filter()` 方法。 - 下载处理程序的延迟加载变为可选。 #### 3. 文档改进 - 更新了 `.get()` 和 `.getall()` 的使用建议,重构了选择器文档。 - 新增教程:使用浏览器开发者工具进行抓取。 - 文档新增 `SCRAPY_PROJECT` 环境变量和安装故障排除部分。 - 更新了其他内容,如默认设置和弃用选项。 #### 4. 弃用移除 - 移除了早期版本的模块和接口,如 `scrapy.interfaces.ISpiderManager` 和 `CrawlerSettings`。 - 移除了不再支持的功能,如默认字段值和实验性爬虫 v2。 #### 5. 架构概述 - **数据流**:展示了爬虫组件之间的交互流程。 - **核心组件**:包括爬虫引擎、调度器、下载器和蜘蛛。 #### 6. 核心 API - **Crawler 对象**: - 提供对爬虫核心组件的访问,如设置、信号、统计等。 - 用于启动爬虫并返回 deferred 对象。 - **SpiderManager**: - 管理爬虫的生命周期,处理爬虫的启动和停止。 #### 7. 扩展 Scrapy - **扩展开发**: - 介绍了如何编写自定义扩展和中间件。 - 提供了扩展架构的详细说明和示例。 总结:Scrapy 2.5 版本在性能、安全性和扩展性方面均有显著提升,文档更新也更完善,适合开发者进行高效的网络数据抓取和处理。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 359 页请下载阅读 -
文档评分
请文明评论,理性发言.