Scrapy 2.8 Documentation

语言	格式	评分
英语	.epub	3
摘要
Scrapy 是一个快速的高级网络爬取和网络抓取框架，用于爬取网站并从其页面中提取结构化数据。文档介绍了 Scrapy 2.8 的新功能、改进和修复，包括弃用的功能、支持的 Python 版本、新的扩展功能、文档改进以及如何获取帮助。主要内容包括：维护版本更新、弃用功能的移除、新功能的添加、bug 修复、文档改进和 Scrapy 的基本概念。文档还提供了安装指南、教程和示例项目，帮助用户快速上手。
AI总结
### Scrapy 2.8 文档总结 #### 1. Scrapy 简介 Scrapy 是一个快速的高层网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 获取帮助 - FAQ：常见问题解答。 - 索引和模块索引：快速查找信息。 - 社区支持：StackOverflow（标签：scrapy）、Reddit（r/scrapy）、Scrapy 用户邮件列表、IRC 频道（#scrapy）、Discord 社区。 - 问题反馈：报告问题或提交 bug 到 GitHub 仓库。 #### 3. 安装与入门 - 提供安装指南、教程和示例项目，帮助用户快速上手。 #### 4. 基本概念与命令行工具 - 介绍了 Scrapy 的核心概念和命令行工具的使用。 #### 5. 版本更新（Scrapy 2.8.0） ##### 5.1 弃用移除 - 移除了自 2.0 起弃用的功能，包括： - `scrapy.utils.gz.read1` 和 `scrapy.utils.python.to_native_str`。 - `scrapy.linkextractors.FilteringLinkExtractor`。 - 环境变量 `SCRAPY_` 的支持。 - `proxy URLs` 中的 `noconnect` 查询参数。 - `scrapy.utils.python.retry_on_eintr` 和 `WeakKeyCache`。 ##### 5.2 新增功能 - 代码风格：应用 Black 代码风格到 `genspider` 和 `startproject` 生成的文件。 - 默认编码：设置 `FEED_EXPORT_ENCODING` 为 `utf-8`，避免 JSON 导出时的转义问题。 - 内存使用日志：记录内存峰值使用情况，使用 MiB 单位。 - 请求回调参数：新增 `scrapy.http.request.NO_CALLBACK()`，区分 `None` 和默认回调。 ##### 5.3 文档改进 - 更新选择器文档，推荐使用 `.get/.getall` 替代 `.extract/.extract_first`。 - 替换旧的 Firefox 和 Firebug 教程，新增使用浏览器开发者工具的教程。 - 文档修复：修正默认重试 HTTP 状态码、移除未使用的 `DEPTH_STATS` 选项。 ##### 5.4 模块移除 - 移除预 1.0 版本的模块，包括 `scrapy.command`、`scrapy.contrib` 等。 ##### 5.5 其他改进 - 移除 `scrapy.interfaces.ISpiderManager`，推荐使用 `scrapy.interfaces.ISpiderLoader`。 - 移除 `CrawlerSettings` 类，推荐使用 `scrapy.settings.Settings`。 #### 6. 旧版本更新 - Scrapy 1.0.0：引入项目数据目录、默认 HTTP 缓存、退出码支持等新功能。 - Scrapy 0.16.0：新增蜘蛛合同、自动扩展等功能。 #### 7. 快速生成文档 - 提供文档编译和查看的命令，方便开发者快速使用文档。总结：Scrapy 2.8.0 是一个维护版本，主要包含功能改进、文档优化和兼容性调整，建议开发者更新代码以充分利用新功能并避免弃用功能的影响。