Scrapy 2.1 Documentation

语言	格式	评分
英语	.epub	3
摘要
Scrapy 是一个快速的高级网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。它适用于从数据挖掘到监控和自动化测试等多种用途。文档详细介绍了 Scrapy 的安装、基本概念、命令行工具、蜘蛛开发以及版本更新。Scrapy 2.1 版本引入了多项改进，包括更好的 Windows 支持、Python 3.7 兼容性、文档改进、新的功能特性以及安全性和性能优化。
AI总结
《Scrapy 2.1 Documentation》提供了关于Scrapy框架的全面指南，涵盖其功能、安装、使用教程以及版本更新等内容。以下是文档的核心总结： ### 1. Scrapy 概述 - 功能：Scrapy 是一个快速的、高层次的网络爬取和抓取框架，用于爬取网站并从页面中提取结构化数据。 - 用途：适用于数据挖掘、网站监控和自动化测试等场景。 - 资源：若遇到问题，可通过FAQ、Stack Overflow（标签：scrapy）、Reddit（ subreddit: scrapy）、邮件列表或IRC频道寻求帮助。 ### 2. 核心功能 - 命令行工具：用于管理Scrapy项目，支持启动、停止爬虫等操作。 - Spider（蜘蛛）：负责定义爬取行为和数据提取规则，是Scrapy的核心组件。 ### 3. 版本更新 #### Scrapy 2.1 - 主要改进： - 优化Windows支持和Python 3.7兼容性。 - 提升文档质量，推荐使用新的`.get()`和`.getall()`方法替代旧的`.extract()`和`.extract_first()`。 - 新增`FEED_EXPORT_INDENT`设置，支持JSON和XML的可读性输出。 - 新功能： - 支持匿名FTP、HTTP重定向处理、非完整响应接收等。 - 提供更详细的日志统计和扩展的中间件功能。 - 不兼容更改： - 默认禁用`LinkExtractor`的`canonicalize`参数。 - `Spider.make_requests_from_url`方法被弃用。 #### Scrapy 1.6.0 - 主要改进： - 提升Windows支持和Python 3.7兼容性。 - 新增`.get()`和`.getall()`方法，优化Selector API。 - 增强文件管道和媒体管道功能。 - 默认启用`memusage`扩展，提供更详细的日志统计。 - 新功能： - 支持自定义重试策略、可选JSON/XML缩进输出、匿名FTP等。 - 安全改进：修复Telnet控制台的安全漏洞，启用默认用户密码认证。 #### Scrapy 0.16.x - 主要改进： - 优化下载延迟和并发性能。 - 提升错误处理和日志记录能力。 - 改善macOS兼容性和文档准确性。 - 新功能： - 新增`Spider Contracts`用于测试蜘蛛。 - 支持`--open-in-browser`调试功能。 - 不兼容更改： - �移除部分弃用功能和模块。 #### Scrapy 0.24.x - 主要改进： - 优化设置API和日志记录功能。 - 新增`LinkExtractor`和`Selector`快捷方式。 - 默认启用文件系统缓存。 - 新功能： - 支持UTF-8编码头、Telnet控制台绑定`127.0.0.1`、Spider上下文持久化等。 #### Scrapy 0.22.x - 主要改进： - 默认切换到文件系统缓存后端。 - 支持AJAX爬取和CONNECT方法的HTTPS代理。 - 优化`RFPDupeFilter`和中间件功能。 - 新功能： - 支持自定义重试策略、文件路径获取等。 - 不兼容更改： - 移除部分旧模块和类。 ### 4. 其他改进 - 文档：新增命令行工具文档，优化API覆盖率报告。 - 测试：支持并行测试和 tox 环境。 - 兼容性：提升对不同操作系统的支持，修复多项潜在问题。总结来看，Scrapy 2.1 版本在性能、功能和文档方面均有显著提升，特别在爬取效率、日志统计和扩展性方面表现突出，同时修复了多项历史问题，增强了安全性和用户体验。