搜索

epub文档 Scrapy 2.11 Documentation

706.01 KB 528 页 0 下载 117 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
《Scrapy 2.11 Documentation》详细介绍了Scrapy框架的最新版本,包括新功能、改进和弃用的功能。文档涵盖了Scrapy的安装、基本概念、命令行工具的使用,以及如何编写第一个Scrapy项目。内容还涉及爬虫框架的使用方法、与第三方服务的集成、选择器的改进、文件管道和媒体管道的新功能,以及如何处理爬取过程中的重复数据和错误。
AI总结
### 《Scrapy 2.11 文档》总结 #### 1. Scrapy 概述 - **Scrapy** 是一个快速的高级网络爬取和抓取框架,用于爬取网站并提取结构化数据。 - **用途广泛**:数据挖掘、网站监控、自动化测试等。 - **核心功能**:爬取、数据提取、存储和处理。 #### 2. 获取帮助 - 提供多种途径:FAQ、索引、Stack Overflow、Reddit、邮件列表、IRC频道、Discord社区等。 - **资源**: - [Stack Overflow](https://stackoverflow.com/tags/scrapy) - [Reddit](https://www.reddit.com/r/scrapy/) - [邮件列表](https://groups.google.com/forum/#!forum/scrapy-users) - [IRC 频道](#scrapy) - [Discord](https://discord.gg/mv3yErfpvq) #### 3. 安装与入门 - 提供安装指南、教程和示例项目,帮助用户快速上手。 #### 4. 基本概念与工具 - **命令行工具**:用于管理 Scrapy 项目。 - **新功能**: - **parsel 更新**:推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - **Selector.attrib 和 SelectorList.attrib**:简化 HTML 属性获取。 - **CSS 选择器缓存**:提升性能。 #### 5. Telnet 控制台 - **更新**:现在需要用户名和密码,提升了安全性。 #### 6. 新扩展性功能 - **Feed 导出器与存储**:支持 `from_crawler`,允许访问 Scrapy 设置。 - **重复过滤器**:支持 `from_crawler`,可访问设置或蜘蛛。 - **信号改进**:新增 `item_error` 和 `request reached downloader` 信号。 - **SitemapSpider**:新增 `sitemap_filter()` 方法。 - **Downloader Handler**:延迟加载,优化错误处理。 #### 7. 文件管道与媒体管道 - **S3FilesStore**:新增 AWS 参数支持(如 ENDPOINT URL、SSL、VERIFY、REGION)。 - **Google Cloud Storage**:支持 ACL 配置。 #### 8. scrapy.contracts 改进 - **异常处理**:改进了 contracts 代码的异常处理。 - **dont_filter=True**:允许测试不同回调。 #### 9. 版本更新与改进 - **Scrapy 0.22.0**: - HTTPCacheMiddleware 后端切换到文件系统。 - 支持 CONNECT 方法代理 HTTPS URL。 - 命名空间支持、Spider 命名更改等。 - **Scrapy 0.20.2**: - 修复兼容性问题,更新文档格式。 - **Scrapy 0.24.1**: - 修复兼容性问题,增加向后兼容性。 - **Scrapy 0.18.0**: - 测试套件改进、AJAX 抓取支持、Cookie 处理优化等。 #### 10. Scrapy 0.10 更新 - **新功能**: - **scrapyd**:生产环境部署服务。 - **持久队列**:支持 SQLite 基础的队列。 - **日志记录与扩展**:新增 LogStats 扩展。 - **API 改进**: - 新增 `open_spider()` 和 `close_spider()` 方法。 - `Request` 对象的 `url` 和 `body` 属性变为只读。 #### 11. 弃用与移除 - **移除**: - `scrapy.http.TextResponse.body_as_unicode` - `scrapy.item.BaseItem` - `scrapy.Spider.make_requests_from_url` - **弃用**: - `scrapy.utils.reqser`:建议使用 `Request.to_dict` 和 `scrapy.utils.request.request_from_dict`。 - `scrapy.squeues` 中的队列类:建议使用新的队列实现。 #### 12. 新功能(Scrapy 2.11) - **项目过滤**:支持通过规则控制导出的项。 - **信号与扩展**:新增 `item_error` 和 `request reached downloader` 信号。 - **Python 3 支持**:优化代码以使用现代 Python 语法。 #### 总结 Scrapy 2.11 提供了丰富的功能和性能优化,支持多种数据处理和存储方式,同时注重扩展性和安全性。文档详细介绍了新功能、改进和弃用内容,帮助用户更好地理解和使用 Scrapy。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 521 页请下载阅读 -
文档评分
请文明评论,理性发言.