| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细记录了Scrapy框架在不同版本中的更新内容,包括错误修复、功能改进、文档更新以及新增功能。主要涵盖了下载延迟的处理、日志记录的优化、图像管道错误处理的改进、文档主题的扩展,以及对旧版本的兼容性调整。文档还提到了一些模块的重构和新功能的添加,如ChunkedTransferMiddleware的引入和对Boto 2.0的支持。 | ||
| AI总结 | ||
以下是文档内容的中文总结:
---
### Scrapy 版本更新与变更日志
#### 1.3.3 版本
- **日志改进**:修复了错误消息格式化问题,`log.err()` 不支持自定义格式,错误消息格式统一为:“ERROR: Error processing %(item)s”。
- **图片管道优化**:改进了图片管道的错误日志记录。
- **文档更新**:新增了“广谱爬取与常见实践”的文档主题。
- **修复问题**:
- 修复 `scrapy parse` 命令在未指定爬虫时的错误。
- 更新 `topics/commands.rst` 文档。
- 修复文档中拼写错误和格式问题。
#### 1.3.2 版本
- **新功能**:
- 添加 `openssl version` 到 `version` 命令。
- 添加 `service_identity` 到 `install_requires`。
- **修复问题**:
- 解决 Travis CI 的兼容性问题。
- Twisted 15.3.0 不再因序列化 lambda 函数引发 `PicklingError`。
- 修复文档中的拼写错误和引用问题。
#### 1.3.1 版本
- **新功能**:
- 添加 `IMAGES_EXPIRES`、`IMAGES_MIN_HEIGHT` 和 `IMAGES_MIN_WIDTH` 等图片管道设置。
- 更新 Ubuntu 和 ArchLinux 的文档内容。
- **修复问题**:
- 修复 FTP 请求路径的引号问题。
- 更新测试文件包含在源发行包中。
- 修复文档中 `SelectJmes` 的拼写错误。
#### 1.3.0 版本
- **新功能**:
- 引入 `w3lib` 库,将部分功能迁移至该库(如 `scrapy.utils` 中的函数)。
- 添加 `scrapely` 库,用于处理网页内容(如 `scrapy.contrib.ibl`)。
- 新增 `LxmlLinkExtractor` 和 `JsonLinesItemExporter`。
- **改进**:
- 重构下载器逻辑,支持按域名/IP 的并发限制。
- 新增持久化调度器,支持存储请求到磁盘并恢复爬取。
- 优化 `libxml2` 的 XPath 选择器性能。
- **移除**:
- 移除 `ClientForm` 的旧引用。
- 移除默认的 SQLite 支持。
- 移除部分实验性功能(如 `crawlspider v2` 和 `Execution Queue`)。
#### 0.16.3 版本
- **新功能**:
- 提升 macOS 兼容性。
- 使用 `README.rst` 生成长描述。
- 添加错误细节到图片管道日志。
- **修复问题**:
- 修复爬虫统计扩展(`LogStats`)的错误。
- 修复 Windows 平台的 `SpiderState` 错误。
#### 0.16.2 版本
- **新功能**:
- 添加对 Python 2.6 的兼容性支持。
- 新增 `open_in_browser` 到调试文档。
- **修复问题**:
- 修复 `scrapy contracts` 的输出格式和测试问题。
#### 0.16.1 版本
- **新功能**:
- 更新 `scrapy.conf.settings` 的后向兼容性。
- 新增扩展文档,说明如何从扩展程序访问爬虫统计。
- **修复问题**:
- 修复 `.hgtags` 文件的移除问题。
#### 0.14.4 版本
- **新功能**:
- 支持更多 Ubuntu 版本。
- 移除不再支持的 `run` 命令。
- **修复问题**:
- 修复 JSON-RPC 网服务的 bug。
- 更新 PIL 图像导入方式。
#### 0.14.3 版本
- **新功能**:
- 包含更多测试文件到源发行包。
- 更新文档以避免混淆 `genspider` 命令。
- **修复问题**:
- 修复爬虫模板的文档问题。
- 移除与 SQLite 支持相关的旧代码。
#### 0.14.2 版本
- **新功能**:
- 新增 `JsonLinesItemExporter`。
- **修复问题**:
- 修复图片存储的checksum 计算问题。
#### 0.12 版本
- **新功能**:
- 支持默认将 HTTP 缓存存储在项目目录中。
- 新增项目文件结构文档。
- 引入 `lxml` 后端支持 XPath 选择器。
- **改进**:
- 修复 `FEED_EXPORT_FIELDS` 和 `DUPEFILTER` 等功能。
#### 其他版本
- **改进**:
- 修复内存统计扩展。
- 更新 Twisted 和其他依赖的兼容性。
- 优化日志记录和扩展功能。
---
总结:文档主要记录了 Scrapy 各版本的重要更新、新功能、改进和修复内容,涵盖了从 0.12 到 1.3.3 的多个版本,重点包括日志改进、图片管道优化、新功能添加以及对旧功能的移除和兼容性调整。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
265 页请下载阅读 -
文档评分














Scrapy 1.3 Documentation
Hyperledger Fabric 1.3 Documentation