搜索

epub文档 Scrapy 1.2 Documentation

548.25 KB 330 页 0 下载 74 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
文档详细介绍了Scrapy框架的功能、安装方法、爬虫编写规则、数据提取技术以及各个版本的更新内容。内容涵盖了从基本概念到高级功能的使用,包括命令行工具的使用、Spider的定义、Selector的使用、数据导出格式等。文档还列出了多个版本的更新日志,记录了功能改进、bug修复以及新功能的添加。此外,文档提供了故障排除方法和社区支持渠道,帮助用户解决问题。
AI总结
# Scrapy 1.2 文档总结 ## 概述 Scrapy 是一个功能强大的网络爬虫框架,适用于从网站中抓取和处理数据。本文档提供了 Scrapy 的安装、使用、开发和优化的详细指南。 ## 主要功能 - **爬虫编写**:通过定义规则(Spider)来抓取和处理网站内容。 - **数据提取**:使用 XPath 或 CSS 选择器从网页中提取数据。 - **项目管理工具**:通过命令行工具(scrapy)管理爬虫项目。 - **数据存储**:支持多种数据导出格式(如 JSON、XML、CSV)和存储后端(如 S3、SQLite)。 - **扩展功能**:支持自定义中间件、管道和扩展(Extension)。 ## 版本更新 ### Scrapy 1.2.3(2017-03-03) - **修复**:禁止不支持的 Twisted 版本。 ### Scrapy 1.2.2(2016-12-06) - **修复**: - 处理 pipeline 失败时的错误回溯。 - 修复嵌入式 IPython 壳变量问题。 - 改善 robots.txt 处理,支持相对 Sitemap URL 和非 ASCII URL。 - 文档改进,包括新增 `download_latency` 说明和修复拼写错误。 ### Scrapy 1.2.1(2016-10-21) - **修复**: - OpenSSL 更宽松的默认加密套件。 - 解码非 ASCII URL 重定向。 ### 新功能与改进 - **新服务**:Scrapyd,用于生产环境中部署爬虫。 - **图片管道简化**:无需自定义即可使用图片管道。 - **Scrapy Shell**:默认显示日志。 - **可扩展队列**:支持插件式后端和持久化队列。 - **Feed 导出器**:支持插件式后端。 - **信号改进**:新增 `open_spider` 和 `close_spider` 方法。 - **请求头设置**:支持按蜘蛛配置默认请求头。 - **命令行工具**:新增 `scrapy.bat` 脚本和 bash 补全。 - **日志记录**:优化日志输出和统计信息。 ### 其他改进 - **依赖管理**:新增conda-forge渠道支持。 - **错误处理**:改进对非文本响应的错误提示。 - **项目生成**:`startproject` 命令生成示例中间件文件。 ### Scrapy 1.1.4(2017-03-03) - **修复**:禁止不支持的 Twisted 版本。 ### Scrapy 1.1.3(2016-09-22) - **修复**:修正 ImagesPipeline 和 FilesPipeline 的类属性问题。 ### Scrapy 1.1.2(2016-08-18) - **修复**:设置默认 `IMAGES_EXPIRES` 回到 90。 ### Scrapy 1.1.1(2016-07-13) - **修复**: - 添加 `Host` 头到 HTTPS 代理请求。 - 更新文档,包括 Ubuntu 安装说明和 macOS 安装指南。 ## 文档改进 - 优化教程示例,使用 `http://toscrape.com` 网站。 - 更新响应参数文档。 - 优化随机下载延迟描述。 - 新增 StackOverflow 支持渠道。 ## 测试与要求 - 新的测试基线为 Debian 8,主要依赖包版本包括 Twisted 14.0、pyOpenSSL 0.14、lxml 3.4。 ## 其他版本更新 - **Scrapy 1.0.3**:修复 Twisted 15.4.0 兼容性。 - **Scrapy 0.16.3**:改进下载延迟和 macOS 兼容性。 - **Scrapy 0.16.2**:支持 Python 2.6 和测试输出改进。 - **Scrapy 0.16.1**:修复 LogStats 扩展问题和文档更新。 - **Scrapy 0.14**:新增 AJAX 爬取支持、持久化调度器和新设置。 ## 总结 Scrapy 1.2 版本在功能、性能和易用性上均有显著提升,新增了多项实用功能,修复了多个已知问题,并优化了文档和测试支持。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 323 页请下载阅读 -
文档评分
请文明评论,理性发言.