搜索

pdf文档 Scrapy 1.4 Documentation

1.15 MB 281 页 0 下载 64 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了Scrapy 1.4版本的更新内容,包括新功能、API变化、命令行工具改进以及已知问题的修复。主要更新包括支持返回字典、日志记录重构、新增中间件和管道功能、请求处理优化等。文档还提供了详细的设置参数和模块参考,帮助用户更好地理解和使用Scrapy框架。
AI总结
### Scrapy 1.4 文档总结 #### 1. 引言 Scrapy 1.4 是一个功能强大的网络爬虫框架,文档内容涵盖了框架的核心功能、配置选项、中间件、管道、信号、命令行工具以及版本更新日志。以下是文档的核心内容总结: --- #### 2. 新增功能和改进 - **Feed Exporters**:支持插件式后端,允许用户自定义数据导出方式。 - **Deferred Signals**:新增延迟信号,允许异步处理信号。 - **Item Pipeline 改进**:新增 `open_spider()` 和 `close_spider()` 方法,支持延迟处理。 - **自定义请求头**:支持在蜘蛛级别自定义默认请求头。 - **日志重构**:改进日志系统,支持懒惰格式化(lazy formatting)。 - **持久上下文扩展**:新增扩展功能,允许在不同运行中保持蜘蛛上下文。 - **拒绝重定向和重试**:新增 `dont_redirect` 和 `dont_retry` 请求元数据键,控制请求行为。 - **API 改变**:`Request` 对象的 `url` 和 `body` 属性变为只读;`Request.copy()` 和 `Request.replace()` 现在支持复制回调和错误处理函数。 --- #### 3. 重要设置和中间件 - **HTTP 相关设置**: - `HTTPERROR_ALLOW_ALL`:允许所有 HTTP 错误状态码。 - `HTTPERROR_ALLOWED_CODES`:指定允许的 HTTP 错误状态码。 - `HTTPPROXY_ENABLED`:启用或禁用 HTTP 代理。 - **中间件**: - `HttpErrorMiddleware`:处理 HTTP 错误。 - `HttpProxyMiddleware`:处理 HTTP 代理请求。 - `AjaxCrawlMiddleware`:支持 AJAX 爬取。 - `ImagesPipeline` 和 `FilesPipeline`:用于下载和处理文件和图片。 --- #### 4. 版本更新日志 - **Scrapy 1.4.0**: - 支持返回字典:蜘蛛可以直接返回字典,无需使用 `Item`。 - 新增 `JsonLinesItemExporter`:支持逐行导出 JSON 数据。 - 重构日志系统:日志格式化器返回字典,支持懒惰格式化。 - 新增 `dont_redirect` 和 `dont_retry` 请求元数据键。 - **Scrapy 1.0.x**: - 支持 `service_identity`:增强 SSL/TLS 验证。 - 修复内存泄漏问题:改进内存管理。 - 修复文件下载和处理问题:优化 `ImagesPipeline` 和 `FilesPipeline`。 - **Scrapy 0.14.x**: - 新增持久化调度器:支持暂停和恢复爬虫。 - 支持 AJAX 爬取:处理动态生成的内容。 - 新增 `-o` 选项:直接将爬取结果输出到文件或标准输出。 --- #### 5. 问题修复和兼容性改进 - **内存管理**:改进内存使用统计,支持更精确的内存监控。 - **日志统计**:新增按日志级别的统计功能。 - **文件下载**:修复文件下载中的checksum计算问题。 - **兼容性**: - 支持 Twisted 15.3.0 及以上版本。 - 兼容 Python 2 和 3。 - 修复与 Pillow 库的兼容性问题。 --- #### 6. 工具和命令行变化 - **命令行工具**: - 新增 `scrapy.bat` 脚本:方便 Windows 用户运行。 - 新增 bash 补全:提升命令行操作体验。 - 重命名命令:`start` 改为 `runserver`。 - **调试工具**: - 支持通过 `guppy` 工具调试内存泄漏。 - 提供 `StackTraceDump` 扩展:dump 线程堆栈信息。 --- #### 7. 总结 Scrapy 1.4 是一个功能全面且稳定的版本,新增了多项实用功能,优化了性能和兼容性,修复了多个已知问题。文档详细介绍了框架的核心组件、配置选项和使用方法,适合开发者快速上手和深入使用。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 274 页请下载阅读 -
文档评分
请文明评论,理性发言.