| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
文档主要介绍了Scrapy 1.4版本的新功能和改进,包括支持匿名FTP会话、新的response.follow方法、链接抽取器的改进、随机下载延迟描述的修改、增加StackOverflow作为支持渠道等。同时,文档还列出了多个版本的更新日志,包括新增功能、改进、弃用功能和错误修复等内容。 | ||
| AI总结 | ||
# Scrapy 1.4 文档总结
## 1. 获取帮助
- **FAQ**:常见问题解答。
- **索引**:通过索引快速查找信息。
- **社区支持**:
- StackOverflow标签:`scrapy`
- Reddit社区:`/r/scrapy`
- 邮件列表存档:`groups.google.com/forum/#!forum/scrapy-users`
- IRC频道:`#scrapy`
## 2. 入门指南
- **Scrapy概述**:了解Scrapy的功能和用途。
- **安装指南**:在计算机上安装Scrapy。
- **教程**:编写第一个Scrapy项目。
- **示例**:通过预设项目学习更多。
## 3. 基本概念
- **命令行工具**:管理Scrapy项目的命令行工具。
- **Spider**:定义爬取网站的规则。
- **Selector**:使用XPath从网页中提取数据。
## 4. 版本更新日志
### Scrapy 1.4.0(2017-05-18)
- **新功能**:
- 支持匿名FTP会话,通过`FTP_USER`和`FTP_PASSWORD`设置自定义用户和密码。
- Twisted 17.1.0及以上版本支持Python 3的FTP。
- 新增`response.follow`方法,推荐用于创建请求,支持相对URL、非ASCII URL、选择器等。
- 链接提取器改进:去除空格、不默认规范URL、支持自定义referrer策略。
- 新增`FEED_EXPORT_INDENT`设置,使JSON和XML输出更易读。
- **改进**:
- 默认日志记录更多统计信息(内存使用、HTTP错误码等)。
- HTTP缓存路径可见。
- **向后不兼容**:
- `UrlFilterMiddleware`已移除。
- `SpiderManager.load()`方法移除。
### Scrapy 1.1.x
- **改进**:
- `response.follow`方法优化。
- 链接提取器改进。
- **修复**:
- 处理400错误不再重试。
- 支持空密码的代理配置。
- 改进`FormRequest`处理。
### Scrapy 1.0.x
- **改进**:
- `RetryMiddleware`更 robust。
- HTTP缓存检查修复。
- **修复**:
- 处理非标准HTTP状态码。
- 修复模板渲染问题。
### Scrapy 0.24.0
- **新功能**:
- 新增`lxml`基XPath选择器,替代未维护的`SgmlLinkExtractor`。
- 支持`process_links`生成器。
- **改进**:
- 优化`TelnetConsole`默认绑定`127.0.0.1`。
- 更新文档,支持Sphinx 1.4+。
### Scrapy 0.14.0
- **新功能**:
- 新增`scrapyd`服务,支持按进程部署爬虫。
- 支持UTF-8编码头。
- **改进**:
- 默认文件存储缓存修复。
- 修复`MemoryUsage`扩展。
### Scrapy 0.12.0
- **新功能**:
- 支持`lxml`后端。
- 新增`CLOSESPIDER_ITEMCOUNT`设置。
- **改进**:
- 默认HTTP缓存存储在项目目录。
- 新增`scrapyd`的Web界面。
### Scrapy 0.10.0
- **新功能**:
- 引入`scrapyd`服务,支持部署爬虫。
- 支持`per-spider settings`。
---
## 5. 重要改进与修复
- **链接提取器**:去除空格、支持自定义referrer策略。
- **日志记录**:新增内存使用统计、HTTP错误码统计。
- **请求处理**:支持空密码代理、处理非标准HTTP状态码。
- **输出格式**:JSON和XML输出更易读。
## 6. 向后不兼容
- `UrlFilterMiddleware`已移除。
- `SpiderManager.load()`方法移除。
- `Request.url`和`Request.body`属性变为只读。
## 7. 其他改进
- **命令行工具**:新增`scrapy.bat`脚本、bash补全。
- **日志记录**:默认启用Scrapy日志。
- **扩展支持**:新增持久化蜘蛛上下文扩展。
---
以上为Scrapy 1.4文档的核心内容,涵盖主要功能、改进和修复。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
346 页请下载阅读 -
文档评分














Scrapy 1.4 Documentation
Conan 1.4 Documentation