搜索

pdf文档 Scrapy 1.5 Documentation

1.17 MB 285 页 0 下载 116 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了Scrapy 1.5.2版本的更新内容,包括对Python 3.6、PyPy和PyPy3的支持,弃用对Python 3.3的支持,改进了日志信息,增加了对Google Cloud Storage的支持,处理HTTP 308、522和524状态码的方式,以及对LinkExtractor的改进。文档还提到了Scrapy 1.5.0版本的新功能,如支持<link>标签在Response.follow中使用,支持ptpython REPL,改进了MailSender在Python 3中的兼容性,以及对代理服务器连接的复用。此外,文档还记录了Scrapy 1.0.0版本的重大更新,包括支持返回字典、引入了基于优先级的单蜘蛛设置等。
AI总结
### Scrapy 1.5 文档总结 #### 主要更新内容 ##### 1. 特性与改进 - **Google Cloud Storage 支持**: FilesPipeline 和 ImagesPipeline 现在支持 Google Cloud Storage。 - **代理服务器优化**: 代理服务器连接可复用,提升爬取效率。 - **日志与警告改进**: 调整了警告和日志消息,便于调试。 - **scrapy parse 命令增强**: 新增 `--meta` 选项,支持自定义请求元数据。 - **Python 兼容性**: 改善了对 Python 3.6、PyPy 和 PyPy3 的支持,PyPy 系列现在正式支持。 - **HTTP 状态码处理**: 改善对 308、522 和 524 状态码的处理。 - **新功能**: - 支持 `` 标签在 `Response.follow` 中使用。 - 支持 `ptpython` REPL。 - 新增 `--meta` 选项到 `scrapy parse` 命令。 - 填充 `spider` 变量在 `shell.inspect_response` 中使用。 - 支持 HTTP 308 永久重定向。 - 新增 522 和 524 状态码到 `RETRY_HTTP_CODES`。 - 新增日志版本信息输出。 - `scrapy.mail.MailSender` 现在支持 Python 3。 - 新增下载中间件模板。 - 显示 `NotImplementedError` 当解析回调未定义时。 ##### 2. 不兼容变化 - **Python 支持**: 1.5 版本不再支持 Python 3.3。 - **用户代理更改**: 默认用户代理链接改为 `https://scrapy.org`,可能需要手动覆盖 `USER_AGENT`。 - **日志记录器更改**: 日志记录器从 `[scrapy.utils.log]` 更改为 `[scrapy.crawler]`,可能导致日志解析工具需要更新。 - **LinkExtractor 行为变化**: 默认忽略 `.m4v` 扩展。 ##### 3. 其他改进与修复 - **文档改进**: 文档内容进一步优化,包括安装说明的调整和非 Python 依赖的支持。 - **测试与兼容性**: 在 CI 环境中运行测试以确保兼容性。 - **错误修复**: 包括 Twisted 15.4.0 兼容性修复、测试用例调整等。 #### 总结 Scrapy 1.5 版本带来了多项新功能和改进,提升了对现代 Python 版本和云存储的支持,优化了爬取效率和日志处理能力。同时,部分功能调整可能需要用户进行适配,建议在升级前仔细阅读不兼容变更部分。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 278 页请下载阅读 -
文档评分
请文明评论,理性发言.