| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .epub | 3 |
| 摘要 | ||
Scrapy是一个快速的高级网络爬取和网页抓取框架,用于爬取网站并从其页面中提取结构化数据。文档详细介绍了Scrapy的基本概念、安装指南、教程以及从版本0.9到2.9之间的更新,包括新功能、改进、移除的API以及文档更新。此外,还提到了与Parsel库的集成,以及对telnet控制台的安全性改进。 | ||
| AI总结 | ||
### Scrapy 2.9 文档总结
#### 1. Scrapy 概述
- Scrapy 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。
- 可用于数据挖掘、网站监控和自动化测试等多种用途。
#### 2. 获取帮助
- 提供多种途径获取帮助:FAQ、索引、StackOverflow、Reddit、邮件列表、IRC频道、Discord社区等。
#### 3. 安装指南
- 提供详细的安装说明,确保用户能够快速完成 Scrapy 的安装。
#### 4. 基本概念
- 介绍了 Scrapy 的核心概念,包括爬虫、Spider、爬虫管理器、统计收集器等。
#### 5. 命令行工具
- 介绍了用于管理 Scrapy 项目的命令行工具,包括新功能和改进:
- `scrapy.crawler.Crawler` 替代了 `scrapy.core.manager.ScrapyManager`。
- 移动模块:`scrapy.contrib.spidermanager` 移动到 `scrapy.spidermanager`。
- 统计收集器的改进:`scrapy.statscol.SimpledbStatsCollector` 移动到 `scrapy.contrib.statscol.SimpledbStatsCollector`。
#### 6. 设置(Settings)的变化
- 新增设置:
- `HTTPCACHE_IGNORE_SCHEMES`:用于忽略特定方案的 HTTP 缓存。
- `SPIDER_QUEUE_CLASS`:定义使用的爬虫队列。
- `KEEP_ALIVE`:启用连接保持。
- 移除设置:
- `SERVICE_QUEUE`
- `COMMANDS_SETTINGS_MODULE`
#### 7. 新功能与改进
- **新特性**:
- 支持 SMTP-AUTH,新增 `MAIL_USER` 和 `MAIL_PASS` 设置。
- 新增 `scrapy-ctl view` 命令,用于在浏览器中查看 URL。
- 新增 Web 服务用于控制 Scrapy 进程,替代旧版 Web 控制台。
- 支持作为服务运行,适用于生产环境。
- 新增 `parsel` 库的集成,优化选择器性能。
- **改进**:
- 提升文档质量,优化教程内容。
- 支持通过 `from_crawler` 初始化扩展、存储和过滤器。
- 新增 `itemap_filter()` 方法,允许子类选择器根据属性选择sitemap条目。
#### 8. 弃用与移除
- **弃用的 API**:
- `scrapy.conf`:建议使用 `Crawler.settings`。
- `scrapy.log`:建议使用新日志模块。
- `scrapy.spiders.BaseSpider`:建议使用 `Spider`。
- **移除的 API**:
- `scrapy.deploy` 命令。
- `Django Item`。
- `SgmlLinkExtractor`。
#### 9. 选择器 API 变化
- 依赖 `parsel` 版本 ≥1.5,优化选择器性能:
- 推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。
- 引入 `Selector.attrib` 和 `SelectorList.attrib` 属性,简化 HTML 属性获取。
#### 10. Telnet 控制台
- **变化**:Telnet 控制台现在需要用户名和密码,增强安全性。
#### 11. 新增扩展性功能
- **信号**:
- 新增 `item_error` 和 `request_reached_downloader` 信号。
- 新增 `sitemap_filter()` 方法。
- **懒加载**:可选懒加载下载器处理程序,优化初始化错误处理。
#### 12. 文件和媒体管道功能
- **S3 文件存储**:新增更多选项,如 `AWS_ENDPOINT_URL`、`AWS_USE_SSL` 等。
- **修复**:修复 `IMAGES_EXPIRES` 默认值回归为 90。
#### 13. 文档改进
- 更新了部署文档,新增 `scrapyd-deploy` 和 `shub` 的部署内容。
- 优化了教程和架构文档,修复了多个文档错误。
#### 14. 其他注意事项
- **兼容性**:部分弃用的功能仍保持兼容性,但建议尽快迁移。
- **性能与安全**:优化了内存统计和 HTTPS 代理处理,修复了多个安全问题。
总结:Scrapy 2.9 版本在功能、性能和文档方面均有显著提升,新增了多项实用功能,同时优化了部分核心组件,建议用户更新至最新版本以获得更好的体验。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
496 页请下载阅读 -
文档评分














Scrapy 2.9 Documentation
Conan 2.9 Documentation