| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
该文档是Scrapy 1.1的官方文档,涵盖了Scrapy的基本概念、安装方法、教程、蜘蛛编写规则、选择器使用方法等内容。文档详细介绍了Scrapy 1.1的新功能,包括对Python 3的Beta支持、Item加载器的嵌套支持、FormRequest改进、响应文本提取、匿名S3连接等。此外,文档还列出了多个版本的更新内容,包括功能增强、性能优化和一些已弃用的功能。文档还提供了故障排除、FAQ和社区支持等信息,帮助用户更好地使用Scrapy。 | ||
| AI总结 | ||
# Scrapy 1.1 文档总结
## 1. 获取帮助
- 提供多种途径获取帮助:FAQ、索引、Stack Overflow(标签:scrapy)、邮件列表、IRC频道(#scrapy)。
- 提供问题反馈和报告bug的渠道。
## 2. 基本概念
- **命令行工具**:用于管理Scrapy项目。
- **蜘蛛**:编写爬取网站的规则。
- **选择器**:使用XPath提取网页数据。
## 3. 新功能与改进
### 3.1 主要新功能
- **Python 3 支持**:Scrapy 1.1 提供了对Python 3的Beta支持,需使用Twisted >= 15.5。
- **Item Loaders**:支持嵌套加载器(issue 1467)。
- **FormRequest.from_response**:改进表单请求处理(issue 1382、1137)。
- **AutoThrottle**:新增AUTOTHROTTLE_TARGET_CONCURRENCY设置,优化文档(issue 1324)。
- **响应文本获取**:新增`response.text`获取Unicode文本(issue 1730)。
- **匿名S3连接**:支持匿名访问S3(issue 1358)。
- **HTTPS连接**:默认使用TLS协议协商,支持通过`DOWNLOADER_CLIENT_TLS_METHOD`设置SSL/TLS方法(issue 1974)。
- **HTTP缓存**:更贴近RFC2616规范,新增`HTTPCACHE_ALWAYS_STORE`和`HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS`设置(issue 1151)。
- **选择器独立**:选择器功能独立为`parsel`库(issue 1409),支持单独使用且可独立升级。
### 3.2 其他改进
- **Scrapy Shell**:默认显示Scrapy日志(issue 206)。
- **项目文件结构**:文档化项目文件结构(命令行工具文档)。
- **新的部署服务**:Scrapyd,支持生产环境部署,提供Web界面和日志管理。
- **Feed导出**:支持插件式后端(issue 197)。
- **信号处理**:新增异步信号支持(issue 193)。
- **管道扩展**:新增`open_spider()`和`close_spider()`方法,支持异步(issue 195)。
- **请求头设置**:支持自定义默认请求头(issue 181)。
### 3.3 Bug修复
- **默认不再重试400错误**:默认不重试HTTP 400错误,如需旧行为可将400添加到`RETRY_HTTP_CODES`。
- **本地文件加载**:修复`scrapy shell index.html`默认加载远程URL的问题,需使用`scrapy shell ./index.html`加载本地文件。
- **日志输出**:修复日志输出问题,新增`--verbose`选项到`scrapy version`命令。
- **HTTP缓存位置**:默认缓存位置改为项目数据目录。
### 3.4 技术细节
- **测试环境**:升级`pytest`和`pytest-cov`版本(issue 2095)。
- **Twisted兼容性**:修复与Twisted 15.4.0的兼容性问题(commit b262411)。
## 4. 其他版本更新
- **Scrapy 1.0.3**:修复与Twisted 15.4.0的兼容性问题。
- **Scrapy 1.0.2**:修复方法名称错误和文档问题。
- **Scrapy 1.0.1**:修复FTP请求路径问题和文档错误。
- **Scrapy 1.0.0**:新增大量功能和改进,包括支持字典返回、Unicode XPath处理等。
- **Scrapy 0.14.x**:主要改进包括支持AJAX爬取、改进文档和新增扩展功能。
## 5. 技术背景
- **Python 3 支持**:逐步适配Python 3,修复语法错误和兼容性问题。
- **模块重构**:部分模块和类名变更,需注意兼容性。
- **扩展与中间件**:新增扩展功能,如自动节流、日志统计等。
## 6. 总结
Scrapy 1.1 版本带来了对Python 3的Beta支持、选择器独立、HTTP缓存优化、匿名S3连接等重要改进,同时修复了多个影响用户体验的bug。文档详细介绍了新功能、使用方法及注意事项,适合开发者快速上手和深入使用。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
315 页请下载阅读 -
文档评分














Scrapy 1.1 Documentation
Hyperledger Fabric 1.1 Documentation