搜索

pdf文档 Scrapy 2.2 Documentation

1.35 MB 348 页 0 下载 83 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
The document provides a comprehensive guide to Scrapy 2.2, covering installation, basic concepts, and advanced features. It details components such as spiders, selectors, item pipelines, and the command-line tool. The release notes highlight enhancements like improved selector namespaces, unified item loaders, and better logging. The document also includes troubleshooting tips, examples, and information on extending Scrapy.
AI总结
### Scrapy 2.2 文档总结 #### 1. **简介** Scrapy 是一个功能强大的网络爬虫框架,支持多种数据提取和处理方式,适用于各种规模的爬虫项目。文档提供了从入门到高级功能的详细指南,包括安装、使用、调试和扩展等内容。 --- #### 2. **核心功能** - **数据提取**:支持使用 CSS 选择器、XPath 表达式和正则表达式从 HTML/XML 数据中提取内容。 - **交互式 Shell**:提供一个 IPython 增强的 Scrapy Shell,用于测试和调试 CSS/XPath 表达式。 - **输出格式**:支持生成 JSON、CSV、XML 等格式的输出,并可通过多种存储后端(如 FTP、S3、本地文件系统)进行数据存储。 - **扩展性**:支持通过信号、中间件和管道扩展功能,包括 cookie 处理、认证、缓存、用户代理 spoofing 等。 - **调试工具**:提供 Telnet 控制台和内存调试功能,便于调试爬虫。 - **性能优化**:支持自动化的下载延迟和并发请求调整,以及基于规则的爬取深度限制。 --- #### 3. **安装与兼容性** - Scrapy 支持 Python 3.5.2 及以上版本,以及 PyPy(从 PyPy 5.9 起)。 - 可通过 `conda` 安装(推荐使用 conda-forge 通道)。 - 安装命令示例: ```bash conda install scrapy -c conda-forge ``` --- #### 4. **版本更新与改进** ##### **Scrapy 0.22.0(2014-01-17)** - **增强功能**: - 默认切换 HTTP 缓存中间件后端为文件系统(默认值为 `scrapy.contrib.httpcache.DbmCacheStorage`,可通过设置 `HTTPCACHE_STORAGE` 恢复旧后端)。 - 支持 CONNECT 方法处理 HTTPS 链接。 - 增加爬取 Ajax 网页的中间件(符合 Google 的爬虫协议)。 - 重命名 `scrapy.spider.BaseSpider` 为 `scrapy.spider.Spider`。 - 默认启用 XPath 选择器的 EXSLT 命名空间注册。 - 提高测试覆盖率,支持 Python 3。 - 支持部分函数参数定义。 - 支持通过 `tox` 运行单个测试。 - 更新忽略文件扩展名的链接提取器规则。 - 支持定义 HTTP 错误处理设置。 - 使用现代 Python 语法优化代码。 - **修复问题**: - 修复对不存在的 `engine.slots` 的引用。 - 修复非文本响应调用 `body_as_unicode()` 的问题。 - 修复 XPath 选择器和 XPathItemLoader 的警告提示。 - 修复内存统计问题。 - 修复 URL 重写问题。 - 修复 pip 1.5 下的测试运行器问题。 - 修复 Unicode 爬虫名称的日志记录问题。 - 修复 XXE 漏洞(Sitemap 读取器)。 - 支持过滤后的起始请求。 ##### **Scrapy 0.22.1(2014-02-08)** - 修复对 `engine.slots` 的引用问题。 - 修复 HTML 解析器的链接提取器问题。 - 支持 Unicode URL 的处理。 - 更新文档和测试用例。 - 优化编码处理,避免不可编码的字符。 ##### **Scrapy 0.22.2(2014-02-14)** - 修复文档中的拼写错误。 - 更新中间件文档的引用问题。 --- #### 5. **高级功能** - **架构概述**:Scrapy 的核心组件包括爬虫引擎、下载器、选择器、管道和中间件,数据流通过这些组件进行交互。 - **扩展性**:Scrapy 提供丰富的 API 和信号机制,支持自定义功能(如中间件、扩展和管道)。 - **性能优化**:支持动态调整下载延迟和最大并发请求,以及基于规则的爬取深度限制。 - **调试工具**:提供 Telnet 控制台和日志统计功能,便于调试和监控爬虫运行状态。 --- #### 6. **示例与教程** 文档提供了多个示例和教程,帮助用户快速上手。例如: - 使用 `scrapy bench` 命令进行性能基准测试。 - 使用 `scrapy shell` 测试 CSS/XPath 表达式。 - 使用 `scrapy genspider` 创建新的爬虫模板。 --- #### 7. **总结** Scrapy 2.2 是一个功能全面的爬虫框架,支持从简单到复杂的爬虫任务。其核心功能包括数据提取、扩展性和调试工具。文档详细介绍了安装、使用、调试和扩展方法,并提供了丰富的示例和教程。用户可以通过阅读文档快速掌握 Scrapy 的核心功能,并根据需求进行定制开发。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 341 页请下载阅读 -
文档评分
请文明评论,理性发言.