| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
Scrapy 是一个快速的高级网络爬取和网络抓取框架,用于爬取网站并从其页面中提取结构化数据。文档介绍了 Scrapy 2.8 的新功能、改进和修复,包括弃用的功能、支持的 Python 版本、新的扩展功能、文档改进以及如何获取帮助。主要内容包括:维护版本更新、弃用功能的移除、新功能的添加、bug 修复、文档改进和 Scrapy 的基本概念。文档还提供了安装指南、教程和示例项目,帮助用户快速上手。 | ||
| AI总结 | ||
### Scrapy 2.8 文档总结
#### 1. Scrapy 简介
Scrapy 是一个快速的高层网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。
#### 2. 获取帮助
- **FAQ**:常见问题解答。
- **索引和模块索引**:快速查找信息。
- **社区支持**:StackOverflow(标签:scrapy)、Reddit(r/scrapy)、Scrapy 用户邮件列表、IRC 频道(#scrapy)、Discord 社区。
- **问题反馈**:报告问题或提交 bug 到 GitHub 仓库。
#### 3. 安装与入门
- 提供安装指南、教程和示例项目,帮助用户快速上手。
#### 4. 基本概念与命令行工具
- 介绍了 Scrapy 的核心概念和命令行工具的使用。
#### 5. 版本更新(Scrapy 2.8.0)
##### 5.1 弃用移除
- 移除了自 2.0 起弃用的功能,包括:
- `scrapy.utils.gz.read1` 和 `scrapy.utils.python.to_native_str`。
- `scrapy.linkextractors.FilteringLinkExtractor`。
- 环境变量 `SCRAPY_` 的支持。
- `proxy URLs` 中的 `noconnect` 查询参数。
- `scrapy.utils.python.retry_on_eintr` 和 `WeakKeyCache`。
##### 5.2 新增功能
- **代码风格**:应用 Black 代码风格到 `genspider` 和 `startproject` 生成的文件。
- **默认编码**:设置 `FEED_EXPORT_ENCODING` 为 `utf-8`,避免 JSON 导出时的转义问题。
- **内存使用日志**:记录内存峰值使用情况,使用 MiB 单位。
- **请求回调参数**:新增 `scrapy.http.request.NO_CALLBACK()`,区分 `None` 和默认回调。
##### 5.3 文档改进
- 更新选择器文档,推荐使用 `.get/.getall` 替代 `.extract/.extract_first`。
- 替换旧的 Firefox 和 Firebug 教程,新增使用浏览器开发者工具的教程。
- 文档修复:修正默认重试 HTTP 状态码、移除未使用的 `DEPTH_STATS` 选项。
##### 5.4 模块移除
- 移除预 1.0 版本的模块,包括 `scrapy.command`、`scrapy.contrib` 等。
##### 5.5 其他改进
- 移除 `scrapy.interfaces.ISpiderManager`,推荐使用 `scrapy.interfaces.ISpiderLoader`。
- 移除 `CrawlerSettings` 类,推荐使用 `scrapy.settings.Settings`。
#### 6. 旧版本更新
- **Scrapy 1.0.0**:引入项目数据目录、默认 HTTP 缓存、退出码支持等新功能。
- **Scrapy 0.16.0**:新增蜘蛛合同、自动扩展等功能。
#### 7. 快速生成文档
- 提供文档编译和查看的命令,方便开发者快速使用文档。
总结:Scrapy 2.8.0 是一个维护版本,主要包含功能改进、文档优化和兼容性调整,建议开发者更新代码以充分利用新功能并避免弃用功能的影响。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
488 页请下载阅读 -
文档评分














Scrapy 2.8 Documentation
Conan 2.8 Documentation