搜索

epub文档 Scrapy 1.7 Documentation

598.79 KB 391 页 0 下载 85 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
文档详细介绍了Scrapy 1.7版本的更新内容,包括新功能、API改进、性能优化和弃用的旧功能。主要更新包括支持多域名爬虫、新的JSON请求类、改进的Feed导出功能、对.get()和.getall() API的推荐使用,以及对Python 2支持的终止。文档还提到了对开发者更友好且强大的API和功能改进。
AI总结
### Scrapy 1.7 文档总结 #### 1. 框架简介 Scrapy 是一个快速的高层次网络爬取和抓取框架,用于抓取网站并从其页面中提取结构化数据。它可以用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 安装与入门 - **安装**:文档提供了详细的安装指南,帮助用户快速完成 Scrapy 的安装。 - **入门**:通过教程和示例,用户可以快速上手,了解如何编写第一个 Scrapy 项目。 #### 3. 基本概念 - **命令行工具**:Scrapy 提供了一个命令行工具,用于管理项目。 - **蜘蛛(Spiders)**:Scrapy 的核心组件,用于定义爬取逻辑。 #### 4. 主要版本更新 ##### Scrapy 1.7.0(2019-07-18) - **亮点**: - 更好的多域爬取支持。 - 新的 JSON 请求类。 - 规则基蜘蛛的改进。 - 新增 `FEED_EXPORT_INDENT` 设置,支持 JSON 和 XML 的可读格式输出。 - **新功能**: - 支持代理凭证。 - `Response.follow` 简化请求创建。 - 新增 `retry/max_reached` 和 `retry/reason_count/` 等重试统计。 - 支持匿名 FTP 和可自定义的referrer策略。 - 新增 `DOWNLOAD_FAIL_ON_DATALOSS` 设置,允许处理不完整响应。 - **改进**: - 文档改进:推荐使用 `.get()` 和 `.getall()` 替代 `.extract()` 和 `.extract_first()`。 - 提升 Windows 支持和 Python 3.7 兼容性。 - **向后不兼容变化**: - 默认启用 `memusage` 扩展。 - `Spider.make_requests_from_url` 方法弃用。 - `scrapy.command` 和 `scrapy.contrib` 等模块移除。 ##### Scrapy 1.6.0(2019-01-30) - **亮点**: - Python 3.7 兼容性。 - 文档改进:Switch 从 `.extract()` 到 `.get()` API。 - Feed 导出和管道改进。 - **新功能**: - 支持 `data:` URI 下载处理器。 - 新增 `retry` 相关统计和设置。 - **改进**: - 提升 `RobotsTxtMiddleware` 的统计信息。 - 提升 Telnet 控制台的安全性。 ##### Scrapy 1.0.5(2016-02-04) - **改进**: - 修复爬虫中的重复链接问题。 - 文档修复和测试改进。 ##### Scrapy 0.16.3(2012-12-07) - **改进**: - 修复下载延迟和并发限制问题。 - 提升 Mac OS 兼容性。 #### 5. 其他重要信息 - **弃用**:部分旧模块和方法(如 `scrapy.contrib` 和 `scrapy.project`)已被移除。 - **文档**:文档经过重新编写,提升了可读性和规范性,新增了更多主题,如选择器扩展和 CSS 选择器扩展。 #### 6. 注意事项 - Scrapy 1.x 是最后一个支持 Python 2 的版本,Scrapy 2.0 将仅支持 Python 3。 总结:Scrapy 1.7 提供了更强的扩展性和更好的用户体验,同时修复了大量 bug 并改进了文档,适合需要高效网络爬取和数据处理的用户。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 384 页请下载阅读 -
文档评分
请文明评论,理性发言.