Scrapy 1.8 Documentation

语言	格式	评分
英语	.epub	3
摘要
The document provides an overview of the Scrapy framework, detailing various updates, bug fixes, and improvements. It covers changes in requirements, refactoring of functions like canonicalize_url, new documentation additions, and security fixes related to ReDoS vulnerabilities and decompression warnings. The document also mentions changes in testing environments and improvements to user support channels.
AI总结
《Scrapy 1.8 Documentation》主要记录了Scrapy框架的更新内容，包括修复的问题、新增的功能、测试要求、文档更新等内容。以下是总结： ### 1. 主要修复问题 - CrawlSpider回调问题：修复了使用`CrawlSpider`和`scrapy_parse`时选中的回调问题（issue 2225）。 - 无效JSON/XML文件处理：修复了当爬虫未生成任何项时，输出无效JSON/XML文件的问题（issue 872）。 - StreamLogger的flush()方法：修复了`StreamLogger`中`flush()`方法可能导致的日志警告问题（issue 2125）。 - ImagesPipeline和FilesPipeline问题：修复了子类`ImagesPipeline`和`FilesPipeline`的类属性问题（issue 2243）。 - 日志相关问题：修复了多个与日志记录相关的bug（issue 1294、1419、1263、1624、1654、1722、1726、1303）。 - 安全漏洞修复： - 修复了`xmliter`的ReDoS漏洞，建议使用`lxml`代替（GHSA-cc65-xxvf-f7r9）。 - 修复了与`DOWNLOAD MAXSIZE`和`DOWNLOAD WARNSIZE`相关的安全问题（GHSA-7j7m-v7m3-jqm7）。 - 修复了授权头在跨域重定向时的安全问题（GHSA-cw9j-q3vf-hrrv）。 ### 2. 重构与功能改进 - `canonicalize_url`迁移：将`canonicalize_url`函数迁移到`w3lib.url`库（issue 2168）。 - 测试要求更新：Scrapy的最低测试基线从Ubuntu 12.04 Precise调整为Debian 8 Jessie，主要测试包版本包括Twisted 14.0、pyOpenSSL 0.14、lxml 3.4。 - 文档更新： - 更新了`Response`参数文档（issue 2197）。 - 修正了`RANDOMIZE DOWNLOAD DELAY`描述（issue 2190）。 - 添加了StackOverflow作为支持渠道（issue 2257）。 - 更新了`scrapy`架构图（issue 2165）。 ### 3. 版本更新 - Scrapy 1.8.4： - 修复了与`xmliter`相关的安全漏洞，建议使用`lxml`代替。 - 修复了`DOWNLOAD MAXSIZE`和`DOWNLOAD WARNSIZE`的安全问题。 - 修复了授权头在跨域重定向时的安全问题。 - Scrapy 1.8.3： - 修复了`HttpProxyMiddleware`处理代理凭据时的漏洞。 - 其他功能优化和bug修复。 ### 4. 其他重要信息 - 支持渠道：用户可以通过StackOverflow、Reddit、邮件列表和IRC频道获取帮助。 - 文档资源：提供了Scrapy教程、安装指南、命令文档等内容。 ### 5. 总结 Scrapy 1.8版本主要集中在修复安全漏洞、优化日志记录和测试环境，同时改进了文档的易用性和功能的稳定性。