| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
文档主要介绍了Scrapy 2.2版本的更新内容,包括对Python 3.5.2+的支持、新的TextResponse.json方法、信号机制的引入以及对旧功能的弃用。文档还详细说明了安装指南、教程、基本概念、命令行工具和爬虫等内容,并提供了针对不同版本的改进和修复。 | ||
| AI总结 | ||
### Scrapy 2.2 文档总结
#### 1. Scrapy 概述
- **Scrapy** 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从页面中提取结构化数据。
- 可用于数据挖掘、网站监控和自动化测试等多种用途。
- 提供了丰富的功能和灵活性,适合各种规模的项目。
#### 2. 获取帮助
- **常见问题**:查阅FAQ或文档索引。
- **社区支持**:通过StackOverflow(标签:scrapy)、Reddit( subreddit: scrapy)、Scrapy 用户邮件列表、IRC频道等寻求帮助。
- **问题反馈**:在GitHub Issues中报告问题。
#### 3. 安装与入门
- 提供安装指南和教程,帮助用户快速上手。
- 包括创建第一个Scrapy项目、示例项目演示等功能。
#### 4. 主要功能更新
- **版本兼容性**:
- Python 3.5.2+ 成为最低要求。
- 支持 dataclass 和 attr 对象作为有效项目类型。
- **新功能**:
- `TextResponse.json()` 方法:用于反序列化 JSON 响应。
- 新的字节接收信号:允许监控响应下载进度并取消下载。
- 支持通过 Google Cloud Storage 的媒体管道。
- **弃用与移除**:
- `TextResponse.body_as_unicode()` 已弃用,建议使用 `TextResponse.text`。
- `scrapy.item.BaseItem` 已弃用,建议使用 `scrapy.item.Item`。
- **性能改进**:
- 所有 Scrapy 测试在 Windows 上通过。
- 提升对 Python 3.7 的支持。
#### 5. 其他改进与修复
- **Spider 改进**:
- 支持通过选择器属性扩展 CSS 选择器。
- 提供更详细的文档,包括使用浏览器开发者工具进行抓取。
- **测试与 CI 优化**:
- 修复多个测试和 CI 相关问题。
- **文档更新**:
- 更新了 Ubuntu 和其他系统安装说明。
- 修复了多个文档错误和不准确之处。
#### 6. 重要版本更新
- **Scrapy 2.2.1**:
- 修复了 `startproject` 命令无意中修改目标文件夹权限的问题。
- **Scrapy 2.2.0**:
- 引入了对数据类和属性对象的支持。
- 新增 `TextResponse.json()` 方法。
- 支持通过信号取消响应下载。
- **Scrapy 1.0.3**:
- 修复 Twisted 15.3.0 中与 lambda 函数序列化相关的问题。
- **Scrapy 1.0.2**:
- 修复 Twisted 15.3.0 中的 PicklingError。
- **Scrapy 1.0.1**:
- 修复 FTP 客户端路径处理问题。
- **Scrapy 1.0.0**:
- 支持直接返回字典,无需声明和返回 Scrapy Items。
- 引入了多项新功能和性能优化。
#### 7. 兼容性与弃用
- 移除了多个旧模块和类,如 `scrapy.command`、`scrapy.contrib` 等。
- 更新了多项接口和方法,建议用户根据弃用警告更新代码。
#### 8. 总结
Scrapy 2.2 版本在功能、性能和文档方面均有显著提升,特别在 Python 3 支持、新功能引入和性能优化方面表现突出。对于开发者而言,建议及时更新到最新版本,并关注弃用提醒以确保代码兼容性。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
425 页请下载阅读 -
文档评分














Scrapy 2.2 Documentation
Conan 2.2 Documentation