搜索

epub文档 Scrapy 2.7 Documentation

682.20 KB 490 页 0 下载 120 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
Scrapy是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。文档介绍了Scrapy的功能、安装指南、教程以及版本更新内容,特别是Scrapy 2.7.1和2.7.0的更新,包括新功能、性能改进、bug修复以及对旧版本的兼容性调整。
AI总结
### Scrapy 2.7 文档总结 #### 1. Scrapy 概述 - **Scrapy** 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从页面中提取结构化数据。 - 可用于数据挖掘、监控、自动化测试等多种用途。 #### 2. 获取帮助 - 提供多种途径解决问题,包括 FAQ、索引、Stack Overflow、Reddit、邮件列表、IRC 频道、Discord 群组等。 - 可通过 [https://github.com/scrapy/scrapy/issues](https://github.com/scrapy/scrapy/issues) 报告问题。 #### 3. 安装与入门 - 提供安装指南和教程,帮助用户快速上手。 #### 4. 版本更新 - **Scrapy 2.7.1**(2022-11-02) - 新增功能:放宽对 Proxy-Authentication header 的限制,恢复与 scrapy-zyte-smartproxy 2.1.0 及更早版本的兼容性。 - 修复问题: - 解决命令行选项的冲突问题。 - 更新 asyncio API,避免隐式使用当前事件循环。 - 修复 deprecated Scrapy 和 Pillow API 的使用。 - 优化生成器返回值的检查逻辑。 - **Scrapy 2.7.0**(2022-10-17) - **新增功能**: - 支持 Python 3.11,弃用 Python 3.6。 - 默认启用异步回调支持。 - 输出字段名支持任意字符串。 - 支持集中配置请求指纹。 - **修复问题**: - 修复 XXE 漏洞。 - 支持过滤后的起始请求。 - 修复无主机名 URL 的问题。 - 测试套件不再依赖 PIL。 #### 5. 弃用与移除的 API - 移除了 deprecated 的 API,包括: - `scrapy.conf`(建议使用 `Crawler.settings`)。 - `http.HttpDownloadHandler`(建议使用 `http10.HTTP10DownloadHandler`)。 - `scrapy.loader.ItemLoader._get_values`(建议使用 `use_get_xpathvalues`)。 - `scrapy.log`(建议使用 Logging)。 - `scrapy.spiders.BaseSpider`(建议使用 `Spider`)。 #### 6. Selector API 变更 - Scrapy 现在依赖 `parsel` 库(版本 ≥ 1.5),推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - 新增 `Selector.attrib` 和 `SelectorList.attrib` 属性,便于获取 HTML 属性。 - CSS 选择器被缓存,提升性能。 #### 7. Telnet 控制台 - Telnet 控制台现需要用户名和密码,提升了安全性。 #### 8. 新增功能与扩展性 - 新增 `from_crawler` 支持,允许从爬虫访问设置。 - 新增信号机制(如 `item_error` 和 `request_reached_downloader`)。 - 新增 `SitemapSpider` 的过滤功能。 - 支持动态调整下载延迟和最大并发请求。 #### 9. 文件与媒体管道增强 - 新增对 S3 存储的更多配置选项(如 AWS ENDPOINT URL、REGION NAME 等)。 #### 10. 其他改进 - 文档更新:修复了多个不清晰或误导性的描述。 - 代码清理:移除了部分冗余代码,提升了代码质量。 #### 11. 注意事项 - 使用 custom Selector 或 SelectorList 子类的用户需注意 `parsel` 的向后不兼容变更。 - `.extract()` 和 `.extract_first()` 方法暂无计划弃用。 #### 12. 编译文档 - 提供了使用 Sphinx 编译文档的快速指南,包括安装依赖、生成 HTML 和查看文档的步骤。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 483 页请下载阅读 -
文档评分
请文明评论,理性发言.