搜索

epub文档 Scrapy 2.1 Documentation

643.28 KB 423 页 0 下载 82 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
Scrapy 是一个快速的高级网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。它适用于从数据挖掘到监控和自动化测试等多种用途。文档详细介绍了 Scrapy 的安装、基本概念、命令行工具、蜘蛛开发以及版本更新。Scrapy 2.1 版本引入了多项改进,包括更好的 Windows 支持、Python 3.7 兼容性、文档改进、新的功能特性以及安全性和性能优化。
AI总结
《Scrapy 2.1 Documentation》提供了关于Scrapy框架的全面指南,涵盖其功能、安装、使用教程以及版本更新等内容。以下是文档的核心总结: ### 1. Scrapy 概述 - **功能**:Scrapy 是一个快速的、高层次的网络爬取和抓取框架,用于爬取网站并从页面中提取结构化数据。 - **用途**:适用于数据挖掘、网站监控和自动化测试等场景。 - **资源**:若遇到问题,可通过FAQ、Stack Overflow(标签:scrapy)、Reddit( subreddit: scrapy)、邮件列表或IRC频道寻求帮助。 ### 2. 核心功能 - **命令行工具**:用于管理Scrapy项目,支持启动、停止爬虫等操作。 - **Spider(蜘蛛)**:负责定义爬取行为和数据提取规则,是Scrapy的核心组件。 ### 3. 版本更新 #### Scrapy 2.1 - **主要改进**: - 优化Windows支持和Python 3.7兼容性。 - 提升文档质量,推荐使用新的`.get()`和`.getall()`方法替代旧的`.extract()`和`.extract_first()`。 - 新增`FEED_EXPORT_INDENT`设置,支持JSON和XML的可读性输出。 - **新功能**: - 支持匿名FTP、HTTP重定向处理、非完整响应接收等。 - 提供更详细的日志统计和扩展的中间件功能。 - **不兼容更改**: - 默认禁用`LinkExtractor`的`canonicalize`参数。 - `Spider.make_requests_from_url`方法被弃用。 #### Scrapy 1.6.0 - **主要改进**: - 提升Windows支持和Python 3.7兼容性。 - 新增`.get()`和`.getall()`方法,优化Selector API。 - 增强文件管道和媒体管道功能。 - 默认启用`memusage`扩展,提供更详细的日志统计。 - **新功能**: - 支持自定义重试策略、可选JSON/XML缩进输出、匿名FTP等。 - **安全改进**:修复Telnet控制台的安全漏洞,启用默认用户密码认证。 #### Scrapy 0.16.x - **主要改进**: - 优化下载延迟和并发性能。 - 提升错误处理和日志记录能力。 - 改善macOS兼容性和文档准确性。 - **新功能**: - 新增`Spider Contracts`用于测试蜘蛛。 - 支持`--open-in-browser`调试功能。 - **不兼容更改**: - �移除部分弃用功能和模块。 #### Scrapy 0.24.x - **主要改进**: - 优化设置API和日志记录功能。 - 新增`LinkExtractor`和`Selector`快捷方式。 - 默认启用文件系统缓存。 - **新功能**: - 支持UTF-8编码头、Telnet控制台绑定`127.0.0.1`、Spider上下文持久化等。 #### Scrapy 0.22.x - **主要改进**: - 默认切换到文件系统缓存后端。 - 支持AJAX爬取和CONNECT方法的HTTPS代理。 - 优化`RFPDupeFilter`和中间件功能。 - **新功能**: - 支持自定义重试策略、文件路径获取等。 - **不兼容更改**: - 移除部分旧模块和类。 ### 4. 其他改进 - **文档**:新增命令行工具文档,优化API覆盖率报告。 - **测试**:支持并行测试和 tox 环境。 - **兼容性**:提升对不同操作系统的支持,修复多项潜在问题。 总结来看,Scrapy 2.1 版本在性能、功能和文档方面均有显著提升,特别在爬取效率、日志统计和扩展性方面表现突出,同时修复了多项历史问题,增强了安全性和用户体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 416 页请下载阅读 -
文档评分
请文明评论,理性发言.