搜索

epub文档 Scrapy 2.2 Documentation

656.88 KB 432 页 0 下载 81 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
文档主要介绍了Scrapy 2.2版本的更新内容,包括对Python 3.5.2+的支持、新的TextResponse.json方法、信号机制的引入以及对旧功能的弃用。文档还详细说明了安装指南、教程、基本概念、命令行工具和爬虫等内容,并提供了针对不同版本的改进和修复。
AI总结
### Scrapy 2.2 文档总结 #### 1. Scrapy 概述 - **Scrapy** 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从页面中提取结构化数据。 - 可用于数据挖掘、网站监控和自动化测试等多种用途。 - 提供了丰富的功能和灵活性,适合各种规模的项目。 #### 2. 获取帮助 - **常见问题**:查阅FAQ或文档索引。 - **社区支持**:通过StackOverflow(标签:scrapy)、Reddit( subreddit: scrapy)、Scrapy 用户邮件列表、IRC频道等寻求帮助。 - **问题反馈**:在GitHub Issues中报告问题。 #### 3. 安装与入门 - 提供安装指南和教程,帮助用户快速上手。 - 包括创建第一个Scrapy项目、示例项目演示等功能。 #### 4. 主要功能更新 - **版本兼容性**: - Python 3.5.2+ 成为最低要求。 - 支持 dataclass 和 attr 对象作为有效项目类型。 - **新功能**: - `TextResponse.json()` 方法:用于反序列化 JSON 响应。 - 新的字节接收信号:允许监控响应下载进度并取消下载。 - 支持通过 Google Cloud Storage 的媒体管道。 - **弃用与移除**: - `TextResponse.body_as_unicode()` 已弃用,建议使用 `TextResponse.text`。 - `scrapy.item.BaseItem` 已弃用,建议使用 `scrapy.item.Item`。 - **性能改进**: - 所有 Scrapy 测试在 Windows 上通过。 - 提升对 Python 3.7 的支持。 #### 5. 其他改进与修复 - **Spider 改进**: - 支持通过选择器属性扩展 CSS 选择器。 - 提供更详细的文档,包括使用浏览器开发者工具进行抓取。 - **测试与 CI 优化**: - 修复多个测试和 CI 相关问题。 - **文档更新**: - 更新了 Ubuntu 和其他系统安装说明。 - 修复了多个文档错误和不准确之处。 #### 6. 重要版本更新 - **Scrapy 2.2.1**: - 修复了 `startproject` 命令无意中修改目标文件夹权限的问题。 - **Scrapy 2.2.0**: - 引入了对数据类和属性对象的支持。 - 新增 `TextResponse.json()` 方法。 - 支持通过信号取消响应下载。 - **Scrapy 1.0.3**: - 修复 Twisted 15.3.0 中与 lambda 函数序列化相关的问题。 - **Scrapy 1.0.2**: - 修复 Twisted 15.3.0 中的 PicklingError。 - **Scrapy 1.0.1**: - 修复 FTP 客户端路径处理问题。 - **Scrapy 1.0.0**: - 支持直接返回字典,无需声明和返回 Scrapy Items。 - 引入了多项新功能和性能优化。 #### 7. 兼容性与弃用 - 移除了多个旧模块和类,如 `scrapy.command`、`scrapy.contrib` 等。 - 更新了多项接口和方法,建议用户根据弃用警告更新代码。 #### 8. 总结 Scrapy 2.2 版本在功能、性能和文档方面均有显著提升,特别在 Python 3 支持、新功能引入和性能优化方面表现突出。对于开发者而言,建议及时更新到最新版本,并关注弃用提醒以确保代码兼容性。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 425 页请下载阅读 -
文档评分
请文明评论,理性发言.