搜索

epub文档 Scrapy 1.1 Documentation

582.29 KB 322 页 0 下载 112 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
该文档是Scrapy 1.1的官方文档,涵盖了Scrapy的基本概念、安装方法、教程、蜘蛛编写规则、选择器使用方法等内容。文档详细介绍了Scrapy 1.1的新功能,包括对Python 3的Beta支持、Item加载器的嵌套支持、FormRequest改进、响应文本提取、匿名S3连接等。此外,文档还列出了多个版本的更新内容,包括功能增强、性能优化和一些已弃用的功能。文档还提供了故障排除、FAQ和社区支持等信息,帮助用户更好地使用Scrapy。
AI总结
# Scrapy 1.1 文档总结 ## 1. 获取帮助 - 提供多种途径获取帮助:FAQ、索引、Stack Overflow(标签:scrapy)、邮件列表、IRC频道(#scrapy)。 - 提供问题反馈和报告bug的渠道。 ## 2. 基本概念 - **命令行工具**:用于管理Scrapy项目。 - **蜘蛛**:编写爬取网站的规则。 - **选择器**:使用XPath提取网页数据。 ## 3. 新功能与改进 ### 3.1 主要新功能 - **Python 3 支持**:Scrapy 1.1 提供了对Python 3的Beta支持,需使用Twisted >= 15.5。 - **Item Loaders**:支持嵌套加载器(issue 1467)。 - **FormRequest.from_response**:改进表单请求处理(issue 1382、1137)。 - **AutoThrottle**:新增AUTOTHROTTLE_TARGET_CONCURRENCY设置,优化文档(issue 1324)。 - **响应文本获取**:新增`response.text`获取Unicode文本(issue 1730)。 - **匿名S3连接**:支持匿名访问S3(issue 1358)。 - **HTTPS连接**:默认使用TLS协议协商,支持通过`DOWNLOADER_CLIENT_TLS_METHOD`设置SSL/TLS方法(issue 1974)。 - **HTTP缓存**:更贴近RFC2616规范,新增`HTTPCACHE_ALWAYS_STORE`和`HTTPCACHE_IGNORE_RESPONSE_CACHE_CONTROLS`设置(issue 1151)。 - **选择器独立**:选择器功能独立为`parsel`库(issue 1409),支持单独使用且可独立升级。 ### 3.2 其他改进 - **Scrapy Shell**:默认显示Scrapy日志(issue 206)。 - **项目文件结构**:文档化项目文件结构(命令行工具文档)。 - **新的部署服务**:Scrapyd,支持生产环境部署,提供Web界面和日志管理。 - **Feed导出**:支持插件式后端(issue 197)。 - **信号处理**:新增异步信号支持(issue 193)。 - **管道扩展**:新增`open_spider()`和`close_spider()`方法,支持异步(issue 195)。 - **请求头设置**:支持自定义默认请求头(issue 181)。 ### 3.3 Bug修复 - **默认不再重试400错误**:默认不重试HTTP 400错误,如需旧行为可将400添加到`RETRY_HTTP_CODES`。 - **本地文件加载**:修复`scrapy shell index.html`默认加载远程URL的问题,需使用`scrapy shell ./index.html`加载本地文件。 - **日志输出**:修复日志输出问题,新增`--verbose`选项到`scrapy version`命令。 - **HTTP缓存位置**:默认缓存位置改为项目数据目录。 ### 3.4 技术细节 - **测试环境**:升级`pytest`和`pytest-cov`版本(issue 2095)。 - **Twisted兼容性**:修复与Twisted 15.4.0的兼容性问题(commit b262411)。 ## 4. 其他版本更新 - **Scrapy 1.0.3**:修复与Twisted 15.4.0的兼容性问题。 - **Scrapy 1.0.2**:修复方法名称错误和文档问题。 - **Scrapy 1.0.1**:修复FTP请求路径问题和文档错误。 - **Scrapy 1.0.0**:新增大量功能和改进,包括支持字典返回、Unicode XPath处理等。 - **Scrapy 0.14.x**:主要改进包括支持AJAX爬取、改进文档和新增扩展功能。 ## 5. 技术背景 - **Python 3 支持**:逐步适配Python 3,修复语法错误和兼容性问题。 - **模块重构**:部分模块和类名变更,需注意兼容性。 - **扩展与中间件**:新增扩展功能,如自动节流、日志统计等。 ## 6. 总结 Scrapy 1.1 版本带来了对Python 3的Beta支持、选择器独立、HTTP缓存优化、匿名S3连接等重要改进,同时修复了多个影响用户体验的bug。文档详细介绍了新功能、使用方法及注意事项,适合开发者快速上手和深入使用。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 315 页请下载阅读 -
文档评分
请文明评论,理性发言.