| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
Scrapy是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。文档介绍了Scrapy的功能、安装指南、教程以及版本更新内容,特别是Scrapy 2.7.1和2.7.0的更新,包括新功能、性能改进、bug修复以及对旧版本的兼容性调整。 | ||
| AI总结 | ||
### Scrapy 2.7 文档总结
#### 1. Scrapy 概述
- **Scrapy** 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从页面中提取结构化数据。
- 可用于数据挖掘、监控、自动化测试等多种用途。
#### 2. 获取帮助
- 提供多种途径解决问题,包括 FAQ、索引、Stack Overflow、Reddit、邮件列表、IRC 频道、Discord 群组等。
- 可通过 [https://github.com/scrapy/scrapy/issues](https://github.com/scrapy/scrapy/issues) 报告问题。
#### 3. 安装与入门
- 提供安装指南和教程,帮助用户快速上手。
#### 4. 版本更新
- **Scrapy 2.7.1**(2022-11-02)
- 新增功能:放宽对 Proxy-Authentication header 的限制,恢复与 scrapy-zyte-smartproxy 2.1.0 及更早版本的兼容性。
- 修复问题:
- 解决命令行选项的冲突问题。
- 更新 asyncio API,避免隐式使用当前事件循环。
- 修复 deprecated Scrapy 和 Pillow API 的使用。
- 优化生成器返回值的检查逻辑。
- **Scrapy 2.7.0**(2022-10-17)
- **新增功能**:
- 支持 Python 3.11,弃用 Python 3.6。
- 默认启用异步回调支持。
- 输出字段名支持任意字符串。
- 支持集中配置请求指纹。
- **修复问题**:
- 修复 XXE 漏洞。
- 支持过滤后的起始请求。
- 修复无主机名 URL 的问题。
- 测试套件不再依赖 PIL。
#### 5. 弃用与移除的 API
- 移除了 deprecated 的 API,包括:
- `scrapy.conf`(建议使用 `Crawler.settings`)。
- `http.HttpDownloadHandler`(建议使用 `http10.HTTP10DownloadHandler`)。
- `scrapy.loader.ItemLoader._get_values`(建议使用 `use_get_xpathvalues`)。
- `scrapy.log`(建议使用 Logging)。
- `scrapy.spiders.BaseSpider`(建议使用 `Spider`)。
#### 6. Selector API 变更
- Scrapy 现在依赖 `parsel` 库(版本 ≥ 1.5),推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。
- 新增 `Selector.attrib` 和 `SelectorList.attrib` 属性,便于获取 HTML 属性。
- CSS 选择器被缓存,提升性能。
#### 7. Telnet 控制台
- Telnet 控制台现需要用户名和密码,提升了安全性。
#### 8. 新增功能与扩展性
- 新增 `from_crawler` 支持,允许从爬虫访问设置。
- 新增信号机制(如 `item_error` 和 `request_reached_downloader`)。
- 新增 `SitemapSpider` 的过滤功能。
- 支持动态调整下载延迟和最大并发请求。
#### 9. 文件与媒体管道增强
- 新增对 S3 存储的更多配置选项(如 AWS ENDPOINT URL、REGION NAME 等)。
#### 10. 其他改进
- 文档更新:修复了多个不清晰或误导性的描述。
- 代码清理:移除了部分冗余代码,提升了代码质量。
#### 11. 注意事项
- 使用 custom Selector 或 SelectorList 子类的用户需注意 `parsel` 的向后不兼容变更。
- `.extract()` 和 `.extract_first()` 方法暂无计划弃用。
#### 12. 编译文档
- 提供了使用 Sphinx 编译文档的快速指南,包括安装依赖、生成 HTML 和查看文档的步骤。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
483 页请下载阅读 -
文档评分














Scrapy 2.7 Documentation
Conan 2.7 Documentation