搜索

epub文档 Scrapy 2.8 Documentation

686.89 KB 495 页 0 下载 95 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
Scrapy 是一个快速的高级网络爬取和网络抓取框架,用于爬取网站并从其页面中提取结构化数据。文档介绍了 Scrapy 2.8 的新功能、改进和修复,包括弃用的功能、支持的 Python 版本、新的扩展功能、文档改进以及如何获取帮助。主要内容包括:维护版本更新、弃用功能的移除、新功能的添加、bug 修复、文档改进和 Scrapy 的基本概念。文档还提供了安装指南、教程和示例项目,帮助用户快速上手。
AI总结
### Scrapy 2.8 文档总结 #### 1. Scrapy 简介 Scrapy 是一个快速的高层网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于数据挖掘、监控和自动化测试等多种用途。 #### 2. 获取帮助 - **FAQ**:常见问题解答。 - **索引和模块索引**:快速查找信息。 - **社区支持**:StackOverflow(标签:scrapy)、Reddit(r/scrapy)、Scrapy 用户邮件列表、IRC 频道(#scrapy)、Discord 社区。 - **问题反馈**:报告问题或提交 bug 到 GitHub 仓库。 #### 3. 安装与入门 - 提供安装指南、教程和示例项目,帮助用户快速上手。 #### 4. 基本概念与命令行工具 - 介绍了 Scrapy 的核心概念和命令行工具的使用。 #### 5. 版本更新(Scrapy 2.8.0) ##### 5.1 弃用移除 - 移除了自 2.0 起弃用的功能,包括: - `scrapy.utils.gz.read1` 和 `scrapy.utils.python.to_native_str`。 - `scrapy.linkextractors.FilteringLinkExtractor`。 - 环境变量 `SCRAPY_` 的支持。 - `proxy URLs` 中的 `noconnect` 查询参数。 - `scrapy.utils.python.retry_on_eintr` 和 `WeakKeyCache`。 ##### 5.2 新增功能 - **代码风格**:应用 Black 代码风格到 `genspider` 和 `startproject` 生成的文件。 - **默认编码**:设置 `FEED_EXPORT_ENCODING` 为 `utf-8`,避免 JSON 导出时的转义问题。 - **内存使用日志**:记录内存峰值使用情况,使用 MiB 单位。 - **请求回调参数**:新增 `scrapy.http.request.NO_CALLBACK()`,区分 `None` 和默认回调。 ##### 5.3 文档改进 - 更新选择器文档,推荐使用 `.get/.getall` 替代 `.extract/.extract_first`。 - 替换旧的 Firefox 和 Firebug 教程,新增使用浏览器开发者工具的教程。 - 文档修复:修正默认重试 HTTP 状态码、移除未使用的 `DEPTH_STATS` 选项。 ##### 5.4 模块移除 - 移除预 1.0 版本的模块,包括 `scrapy.command`、`scrapy.contrib` 等。 ##### 5.5 其他改进 - 移除 `scrapy.interfaces.ISpiderManager`,推荐使用 `scrapy.interfaces.ISpiderLoader`。 - 移除 `CrawlerSettings` 类,推荐使用 `scrapy.settings.Settings`。 #### 6. 旧版本更新 - **Scrapy 1.0.0**:引入项目数据目录、默认 HTTP 缓存、退出码支持等新功能。 - **Scrapy 0.16.0**:新增蜘蛛合同、自动扩展等功能。 #### 7. 快速生成文档 - 提供文档编译和查看的命令,方便开发者快速使用文档。 总结:Scrapy 2.8.0 是一个维护版本,主要包含功能改进、文档优化和兼容性调整,建议开发者更新代码以充分利用新功能并避免弃用功能的影响。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 488 页请下载阅读 -
文档评分
请文明评论,理性发言.