搜索

pdf文档 Scrapy 1.3 Documentation

1.11 MB 272 页 0 下载 80 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细记录了Scrapy框架在不同版本中的更新内容,包括错误修复、功能改进、文档更新以及新增功能。主要涵盖了下载延迟的处理、日志记录的优化、图像管道错误处理的改进、文档主题的扩展,以及对旧版本的兼容性调整。文档还提到了一些模块的重构和新功能的添加,如ChunkedTransferMiddleware的引入和对Boto 2.0的支持。
AI总结
以下是文档内容的中文总结: --- ### Scrapy 版本更新与变更日志 #### 1.3.3 版本 - **日志改进**:修复了错误消息格式化问题,`log.err()` 不支持自定义格式,错误消息格式统一为:“ERROR: Error processing %(item)s”。 - **图片管道优化**:改进了图片管道的错误日志记录。 - **文档更新**:新增了“广谱爬取与常见实践”的文档主题。 - **修复问题**: - 修复 `scrapy parse` 命令在未指定爬虫时的错误。 - 更新 `topics/commands.rst` 文档。 - 修复文档中拼写错误和格式问题。 #### 1.3.2 版本 - **新功能**: - 添加 `openssl version` 到 `version` 命令。 - 添加 `service_identity` 到 `install_requires`。 - **修复问题**: - 解决 Travis CI 的兼容性问题。 - Twisted 15.3.0 不再因序列化 lambda 函数引发 `PicklingError`。 - 修复文档中的拼写错误和引用问题。 #### 1.3.1 版本 - **新功能**: - 添加 `IMAGES_EXPIRES`、`IMAGES_MIN_HEIGHT` 和 `IMAGES_MIN_WIDTH` 等图片管道设置。 - 更新 Ubuntu 和 ArchLinux 的文档内容。 - **修复问题**: - 修复 FTP 请求路径的引号问题。 - 更新测试文件包含在源发行包中。 - 修复文档中 `SelectJmes` 的拼写错误。 #### 1.3.0 版本 - **新功能**: - 引入 `w3lib` 库,将部分功能迁移至该库(如 `scrapy.utils` 中的函数)。 - 添加 `scrapely` 库,用于处理网页内容(如 `scrapy.contrib.ibl`)。 - 新增 `LxmlLinkExtractor` 和 `JsonLinesItemExporter`。 - **改进**: - 重构下载器逻辑,支持按域名/IP 的并发限制。 - 新增持久化调度器,支持存储请求到磁盘并恢复爬取。 - 优化 `libxml2` 的 XPath 选择器性能。 - **移除**: - 移除 `ClientForm` 的旧引用。 - 移除默认的 SQLite 支持。 - 移除部分实验性功能(如 `crawlspider v2` 和 `Execution Queue`)。 #### 0.16.3 版本 - **新功能**: - 提升 macOS 兼容性。 - 使用 `README.rst` 生成长描述。 - 添加错误细节到图片管道日志。 - **修复问题**: - 修复爬虫统计扩展(`LogStats`)的错误。 - 修复 Windows 平台的 `SpiderState` 错误。 #### 0.16.2 版本 - **新功能**: - 添加对 Python 2.6 的兼容性支持。 - 新增 `open_in_browser` 到调试文档。 - **修复问题**: - 修复 `scrapy contracts` 的输出格式和测试问题。 #### 0.16.1 版本 - **新功能**: - 更新 `scrapy.conf.settings` 的后向兼容性。 - 新增扩展文档,说明如何从扩展程序访问爬虫统计。 - **修复问题**: - 修复 `.hgtags` 文件的移除问题。 #### 0.14.4 版本 - **新功能**: - 支持更多 Ubuntu 版本。 - 移除不再支持的 `run` 命令。 - **修复问题**: - 修复 JSON-RPC 网服务的 bug。 - 更新 PIL 图像导入方式。 #### 0.14.3 版本 - **新功能**: - 包含更多测试文件到源发行包。 - 更新文档以避免混淆 `genspider` 命令。 - **修复问题**: - 修复爬虫模板的文档问题。 - 移除与 SQLite 支持相关的旧代码。 #### 0.14.2 版本 - **新功能**: - 新增 `JsonLinesItemExporter`。 - **修复问题**: - 修复图片存储的checksum 计算问题。 #### 0.12 版本 - **新功能**: - 支持默认将 HTTP 缓存存储在项目目录中。 - 新增项目文件结构文档。 - 引入 `lxml` 后端支持 XPath 选择器。 - **改进**: - 修复 `FEED_EXPORT_FIELDS` 和 `DUPEFILTER` 等功能。 #### 其他版本 - **改进**: - 修复内存统计扩展。 - 更新 Twisted 和其他依赖的兼容性。 - 优化日志记录和扩展功能。 --- 总结:文档主要记录了 Scrapy 各版本的重要更新、新功能、改进和修复内容,涵盖了从 0.12 到 1.3.3 的多个版本,重点包括日志改进、图片管道优化、新功能添加以及对旧功能的移除和兼容性调整。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 265 页请下载阅读 -
文档评分
请文明评论,理性发言.