| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细介绍了Scrapy 1.4版本的更新内容,包括新功能、API变化、命令行工具改进以及已知问题的修复。主要更新包括支持返回字典、日志记录重构、新增中间件和管道功能、请求处理优化等。文档还提供了详细的设置参数和模块参考,帮助用户更好地理解和使用Scrapy框架。 | ||
| AI总结 | ||
### Scrapy 1.4 文档总结
#### 1. 引言
Scrapy 1.4 是一个功能强大的网络爬虫框架,文档内容涵盖了框架的核心功能、配置选项、中间件、管道、信号、命令行工具以及版本更新日志。以下是文档的核心内容总结:
---
#### 2. 新增功能和改进
- **Feed Exporters**:支持插件式后端,允许用户自定义数据导出方式。
- **Deferred Signals**:新增延迟信号,允许异步处理信号。
- **Item Pipeline 改进**:新增 `open_spider()` 和 `close_spider()` 方法,支持延迟处理。
- **自定义请求头**:支持在蜘蛛级别自定义默认请求头。
- **日志重构**:改进日志系统,支持懒惰格式化(lazy formatting)。
- **持久上下文扩展**:新增扩展功能,允许在不同运行中保持蜘蛛上下文。
- **拒绝重定向和重试**:新增 `dont_redirect` 和 `dont_retry` 请求元数据键,控制请求行为。
- **API 改变**:`Request` 对象的 `url` 和 `body` 属性变为只读;`Request.copy()` 和 `Request.replace()` 现在支持复制回调和错误处理函数。
---
#### 3. 重要设置和中间件
- **HTTP 相关设置**:
- `HTTPERROR_ALLOW_ALL`:允许所有 HTTP 错误状态码。
- `HTTPERROR_ALLOWED_CODES`:指定允许的 HTTP 错误状态码。
- `HTTPPROXY_ENABLED`:启用或禁用 HTTP 代理。
- **中间件**:
- `HttpErrorMiddleware`:处理 HTTP 错误。
- `HttpProxyMiddleware`:处理 HTTP 代理请求。
- `AjaxCrawlMiddleware`:支持 AJAX 爬取。
- `ImagesPipeline` 和 `FilesPipeline`:用于下载和处理文件和图片。
---
#### 4. 版本更新日志
- **Scrapy 1.4.0**:
- 支持返回字典:蜘蛛可以直接返回字典,无需使用 `Item`。
- 新增 `JsonLinesItemExporter`:支持逐行导出 JSON 数据。
- 重构日志系统:日志格式化器返回字典,支持懒惰格式化。
- 新增 `dont_redirect` 和 `dont_retry` 请求元数据键。
- **Scrapy 1.0.x**:
- 支持 `service_identity`:增强 SSL/TLS 验证。
- 修复内存泄漏问题:改进内存管理。
- 修复文件下载和处理问题:优化 `ImagesPipeline` 和 `FilesPipeline`。
- **Scrapy 0.14.x**:
- 新增持久化调度器:支持暂停和恢复爬虫。
- 支持 AJAX 爬取:处理动态生成的内容。
- 新增 `-o` 选项:直接将爬取结果输出到文件或标准输出。
---
#### 5. 问题修复和兼容性改进
- **内存管理**:改进内存使用统计,支持更精确的内存监控。
- **日志统计**:新增按日志级别的统计功能。
- **文件下载**:修复文件下载中的checksum计算问题。
- **兼容性**:
- 支持 Twisted 15.3.0 及以上版本。
- 兼容 Python 2 和 3。
- 修复与 Pillow 库的兼容性问题。
---
#### 6. 工具和命令行变化
- **命令行工具**:
- 新增 `scrapy.bat` 脚本:方便 Windows 用户运行。
- 新增 bash 补全:提升命令行操作体验。
- 重命名命令:`start` 改为 `runserver`。
- **调试工具**:
- 支持通过 `guppy` 工具调试内存泄漏。
- 提供 `StackTraceDump` 扩展:dump 线程堆栈信息。
---
#### 7. 总结
Scrapy 1.4 是一个功能全面且稳定的版本,新增了多项实用功能,优化了性能和兼容性,修复了多个已知问题。文档详细介绍了框架的核心组件、配置选项和使用方法,适合开发者快速上手和深入使用。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
274 页请下载阅读 -
文档评分














Scrapy 1.4 Documentation
Hyperledger Fabric 1.4 Documentation