搜索

epub文档 Scrapy 1.4 Documentation

566.69 KB 353 页 0 下载 63 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
文档主要介绍了Scrapy 1.4版本的新功能和改进,包括支持匿名FTP会话、新的response.follow方法、链接抽取器的改进、随机下载延迟描述的修改、增加StackOverflow作为支持渠道等。同时,文档还列出了多个版本的更新日志,包括新增功能、改进、弃用功能和错误修复等内容。
AI总结
# Scrapy 1.4 文档总结 ## 1. 获取帮助 - **FAQ**:常见问题解答。 - **索引**:通过索引快速查找信息。 - **社区支持**: - StackOverflow标签:`scrapy` - Reddit社区:`/r/scrapy` - 邮件列表存档:`groups.google.com/forum/#!forum/scrapy-users` - IRC频道:`#scrapy` ## 2. 入门指南 - **Scrapy概述**:了解Scrapy的功能和用途。 - **安装指南**:在计算机上安装Scrapy。 - **教程**:编写第一个Scrapy项目。 - **示例**:通过预设项目学习更多。 ## 3. 基本概念 - **命令行工具**:管理Scrapy项目的命令行工具。 - **Spider**:定义爬取网站的规则。 - **Selector**:使用XPath从网页中提取数据。 ## 4. 版本更新日志 ### Scrapy 1.4.0(2017-05-18) - **新功能**: - 支持匿名FTP会话,通过`FTP_USER`和`FTP_PASSWORD`设置自定义用户和密码。 - Twisted 17.1.0及以上版本支持Python 3的FTP。 - 新增`response.follow`方法,推荐用于创建请求,支持相对URL、非ASCII URL、选择器等。 - 链接提取器改进:去除空格、不默认规范URL、支持自定义referrer策略。 - 新增`FEED_EXPORT_INDENT`设置,使JSON和XML输出更易读。 - **改进**: - 默认日志记录更多统计信息(内存使用、HTTP错误码等)。 - HTTP缓存路径可见。 - **向后不兼容**: - `UrlFilterMiddleware`已移除。 - `SpiderManager.load()`方法移除。 ### Scrapy 1.1.x - **改进**: - `response.follow`方法优化。 - 链接提取器改进。 - **修复**: - 处理400错误不再重试。 - 支持空密码的代理配置。 - 改进`FormRequest`处理。 ### Scrapy 1.0.x - **改进**: - `RetryMiddleware`更 robust。 - HTTP缓存检查修复。 - **修复**: - 处理非标准HTTP状态码。 - 修复模板渲染问题。 ### Scrapy 0.24.0 - **新功能**: - 新增`lxml`基XPath选择器,替代未维护的`SgmlLinkExtractor`。 - 支持`process_links`生成器。 - **改进**: - 优化`TelnetConsole`默认绑定`127.0.0.1`。 - 更新文档,支持Sphinx 1.4+。 ### Scrapy 0.14.0 - **新功能**: - 新增`scrapyd`服务,支持按进程部署爬虫。 - 支持UTF-8编码头。 - **改进**: - 默认文件存储缓存修复。 - 修复`MemoryUsage`扩展。 ### Scrapy 0.12.0 - **新功能**: - 支持`lxml`后端。 - 新增`CLOSESPIDER_ITEMCOUNT`设置。 - **改进**: - 默认HTTP缓存存储在项目目录。 - 新增`scrapyd`的Web界面。 ### Scrapy 0.10.0 - **新功能**: - 引入`scrapyd`服务,支持部署爬虫。 - 支持`per-spider settings`。 --- ## 5. 重要改进与修复 - **链接提取器**:去除空格、支持自定义referrer策略。 - **日志记录**:新增内存使用统计、HTTP错误码统计。 - **请求处理**:支持空密码代理、处理非标准HTTP状态码。 - **输出格式**:JSON和XML输出更易读。 ## 6. 向后不兼容 - `UrlFilterMiddleware`已移除。 - `SpiderManager.load()`方法移除。 - `Request.url`和`Request.body`属性变为只读。 ## 7. 其他改进 - **命令行工具**:新增`scrapy.bat`脚本、bash补全。 - **日志记录**:默认启用Scrapy日志。 - **扩展支持**:新增持久化蜘蛛上下文扩展。 --- 以上为Scrapy 1.4文档的核心内容,涵盖主要功能、改进和修复。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 346 页请下载阅读 -
文档评分
请文明评论,理性发言.