Scrapy 1.4 Documentation

语言	格式	评分
英语	.epub	3
摘要
文档主要介绍了Scrapy 1.4版本的新功能和改进，包括支持匿名FTP会话、新的response.follow方法、链接抽取器的改进、随机下载延迟描述的修改、增加StackOverflow作为支持渠道等。同时，文档还列出了多个版本的更新日志，包括新增功能、改进、弃用功能和错误修复等内容。
AI总结
# Scrapy 1.4 文档总结 ## 1. 获取帮助 - FAQ：常见问题解答。 - 索引：通过索引快速查找信息。 - 社区支持： - StackOverflow标签：`scrapy` - Reddit社区：`/r/scrapy` - 邮件列表存档：`groups.google.com/forum/#!forum/scrapy-users` - IRC频道：`#scrapy` ## 2. 入门指南 - Scrapy概述：了解Scrapy的功能和用途。 - 安装指南：在计算机上安装Scrapy。 - 教程：编写第一个Scrapy项目。 - 示例：通过预设项目学习更多。 ## 3. 基本概念 - 命令行工具：管理Scrapy项目的命令行工具。 - Spider：定义爬取网站的规则。 - Selector：使用XPath从网页中提取数据。 ## 4. 版本更新日志 ### Scrapy 1.4.0（2017-05-18） - 新功能： - 支持匿名FTP会话，通过`FTP_USER`和`FTP_PASSWORD`设置自定义用户和密码。 - Twisted 17.1.0及以上版本支持Python 3的FTP。 - 新增`response.follow`方法，推荐用于创建请求，支持相对URL、非ASCII URL、选择器等。 - 链接提取器改进：去除空格、不默认规范URL、支持自定义referrer策略。 - 新增`FEED_EXPORT_INDENT`设置，使JSON和XML输出更易读。 - 改进： - 默认日志记录更多统计信息（内存使用、HTTP错误码等）。 - HTTP缓存路径可见。 - 向后不兼容： - `UrlFilterMiddleware`已移除。 - `SpiderManager.load()`方法移除。 ### Scrapy 1.1.x - 改进： - `response.follow`方法优化。 - 链接提取器改进。 - 修复： - 处理400错误不再重试。 - 支持空密码的代理配置。 - 改进`FormRequest`处理。 ### Scrapy 1.0.x - 改进： - `RetryMiddleware`更 robust。 - HTTP缓存检查修复。 - 修复： - 处理非标准HTTP状态码。 - 修复模板渲染问题。 ### Scrapy 0.24.0 - 新功能： - 新增`lxml`基XPath选择器，替代未维护的`SgmlLinkExtractor`。 - 支持`process_links`生成器。 - 改进： - 优化`TelnetConsole`默认绑定`127.0.0.1`。 - 更新文档，支持Sphinx 1.4+。 ### Scrapy 0.14.0 - 新功能： - 新增`scrapyd`服务，支持按进程部署爬虫。 - 支持UTF-8编码头。 - 改进： - 默认文件存储缓存修复。 - 修复`MemoryUsage`扩展。 ### Scrapy 0.12.0 - 新功能： - 支持`lxml`后端。 - 新增`CLOSESPIDER_ITEMCOUNT`设置。 - 改进： - 默认HTTP缓存存储在项目目录。 - 新增`scrapyd`的Web界面。 ### Scrapy 0.10.0 - 新功能： - 引入`scrapyd`服务，支持部署爬虫。 - 支持`per-spider settings`。 --- ## 5. 重要改进与修复 - 链接提取器：去除空格、支持自定义referrer策略。 - 日志记录：新增内存使用统计、HTTP错误码统计。 - 请求处理：支持空密码代理、处理非标准HTTP状态码。 - 输出格式：JSON和XML输出更易读。 ## 6. 向后不兼容 - `UrlFilterMiddleware`已移除。 - `SpiderManager.load()`方法移除。 - `Request.url`和`Request.body`属性变为只读。 ## 7. 其他改进 - 命令行工具：新增`scrapy.bat`脚本、bash补全。 - 日志记录：默认启用Scrapy日志。 - 扩展支持：新增持久化蜘蛛上下文扩展。 --- 以上为Scrapy 1.4文档的核心内容，涵盖主要功能、改进和修复。