| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档主要介绍了Scrapy 1.5.2版本的更新内容,包括对Python 3.6、PyPy和PyPy3的支持,弃用对Python 3.3的支持,改进了日志信息,增加了对Google Cloud Storage的支持,处理HTTP 308、522和524状态码的方式,以及对LinkExtractor的改进。文档还提到了Scrapy 1.5.0版本的新功能,如支持<link>标签在Response.follow中使用,支持ptpython REPL,改进了MailSender在Python 3中的兼容性,以及对代理服务器连接的复用。此外,文档还记录了Scrapy 1.0.0版本的重大更新,包括支持返回字典、引入了基于优先级的单蜘蛛设置等。 | ||
| AI总结 | ||
### Scrapy 1.5 文档总结
#### 主要更新内容
##### 1. 特性与改进
- **Google Cloud Storage 支持**: FilesPipeline 和 ImagesPipeline 现在支持 Google Cloud Storage。
- **代理服务器优化**: 代理服务器连接可复用,提升爬取效率。
- **日志与警告改进**: 调整了警告和日志消息,便于调试。
- **scrapy parse 命令增强**: 新增 `--meta` 选项,支持自定义请求元数据。
- **Python 兼容性**: 改善了对 Python 3.6、PyPy 和 PyPy3 的支持,PyPy 系列现在正式支持。
- **HTTP 状态码处理**: 改善对 308、522 和 524 状态码的处理。
- **新功能**:
- 支持 `` 标签在 `Response.follow` 中使用。
- 支持 `ptpython` REPL。
- 新增 `--meta` 选项到 `scrapy parse` 命令。
- 填充 `spider` 变量在 `shell.inspect_response` 中使用。
- 支持 HTTP 308 永久重定向。
- 新增 522 和 524 状态码到 `RETRY_HTTP_CODES`。
- 新增日志版本信息输出。
- `scrapy.mail.MailSender` 现在支持 Python 3。
- 新增下载中间件模板。
- 显示 `NotImplementedError` 当解析回调未定义时。
##### 2. 不兼容变化
- **Python 支持**: 1.5 版本不再支持 Python 3.3。
- **用户代理更改**: 默认用户代理链接改为 `https://scrapy.org`,可能需要手动覆盖 `USER_AGENT`。
- **日志记录器更改**: 日志记录器从 `[scrapy.utils.log]` 更改为 `[scrapy.crawler]`,可能导致日志解析工具需要更新。
- **LinkExtractor 行为变化**: 默认忽略 `.m4v` 扩展。
##### 3. 其他改进与修复
- **文档改进**: 文档内容进一步优化,包括安装说明的调整和非 Python 依赖的支持。
- **测试与兼容性**: 在 CI 环境中运行测试以确保兼容性。
- **错误修复**: 包括 Twisted 15.4.0 兼容性修复、测试用例调整等。
#### 总结
Scrapy 1.5 版本带来了多项新功能和改进,提升了对现代 Python 版本和云存储的支持,优化了爬取效率和日志处理能力。同时,部分功能调整可能需要用户进行适配,建议在升级前仔细阅读不兼容变更部分。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
278 页请下载阅读 -
文档评分














Scrapy 1.5 Documentation
Cilium v1.5 Documentation