Scrapy 2.9 Documentation

语言	格式	评分
英语	.epub	3
摘要
Scrapy是一个快速的高级网络爬取和网页抓取框架，用于爬取网站并从其页面中提取结构化数据。文档详细介绍了Scrapy的基本概念、安装指南、教程以及从版本0.9到2.9之间的更新，包括新功能、改进、移除的API以及文档更新。此外，还提到了与Parsel库的集成，以及对telnet控制台的安全性改进。
AI总结
### Scrapy 2.9 文档总结 #### 1. Scrapy 概述 - Scrapy 是一个快速的高层次网络爬取和抓取框架，用于爬取网站并从其页面中提取结构化数据。 - 可用于数据挖掘、网站监控和自动化测试等多种用途。 #### 2. 获取帮助 - 提供多种途径获取帮助：FAQ、索引、StackOverflow、Reddit、邮件列表、IRC频道、Discord社区等。 #### 3. 安装指南 - 提供详细的安装说明，确保用户能够快速完成 Scrapy 的安装。 #### 4. 基本概念 - 介绍了 Scrapy 的核心概念，包括爬虫、Spider、爬虫管理器、统计收集器等。 #### 5. 命令行工具 - 介绍了用于管理 Scrapy 项目的命令行工具，包括新功能和改进： - `scrapy.crawler.Crawler` 替代了 `scrapy.core.manager.ScrapyManager`。 - 移动模块：`scrapy.contrib.spidermanager` 移动到 `scrapy.spidermanager`。 - 统计收集器的改进：`scrapy.statscol.SimpledbStatsCollector` 移动到 `scrapy.contrib.statscol.SimpledbStatsCollector`。 #### 6. 设置（Settings）的变化 - 新增设置： - `HTTPCACHE_IGNORE_SCHEMES`：用于忽略特定方案的 HTTP 缓存。 - `SPIDER_QUEUE_CLASS`：定义使用的爬虫队列。 - `KEEP_ALIVE`：启用连接保持。 - 移除设置： - `SERVICE_QUEUE` - `COMMANDS_SETTINGS_MODULE` #### 7. 新功能与改进 - 新特性： - 支持 SMTP-AUTH，新增 `MAIL_USER` 和 `MAIL_PASS` 设置。 - 新增 `scrapy-ctl view` 命令，用于在浏览器中查看 URL。 - 新增 Web 服务用于控制 Scrapy 进程，替代旧版 Web 控制台。 - 支持作为服务运行，适用于生产环境。 - 新增 `parsel` 库的集成，优化选择器性能。 - 改进： - 提升文档质量，优化教程内容。 - 支持通过 `from_crawler` 初始化扩展、存储和过滤器。 - 新增 `itemap_filter()` 方法，允许子类选择器根据属性选择sitemap条目。 #### 8. 弃用与移除 - 弃用的 API： - `scrapy.conf`：建议使用 `Crawler.settings`。 - `scrapy.log`：建议使用新日志模块。 - `scrapy.spiders.BaseSpider`：建议使用 `Spider`。 - 移除的 API： - `scrapy.deploy` 命令。 - `Django Item`。 - `SgmlLinkExtractor`。 #### 9. 选择器 API 变化 - 依赖 `parsel` 版本 ≥1.5，优化选择器性能： - 推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - 引入 `Selector.attrib` 和 `SelectorList.attrib` 属性，简化 HTML 属性获取。 #### 10. Telnet 控制台 - 变化：Telnet 控制台现在需要用户名和密码，增强安全性。 #### 11. 新增扩展性功能 - 信号： - 新增 `item_error` 和 `request_reached_downloader` 信号。 - 新增 `sitemap_filter()` 方法。 - 懒加载：可选懒加载下载器处理程序，优化初始化错误处理。 #### 12. 文件和媒体管道功能 - S3 文件存储：新增更多选项，如 `AWS_ENDPOINT_URL`、`AWS_USE_SSL` 等。 - 修复：修复 `IMAGES_EXPIRES` 默认值回归为 90。 #### 13. 文档改进 - 更新了部署文档，新增 `scrapyd-deploy` 和 `shub` 的部署内容。 - 优化了教程和架构文档，修复了多个文档错误。 #### 14. 其他注意事项 - 兼容性：部分弃用的功能仍保持兼容性，但建议尽快迁移。 - 性能与安全：优化了内存统计和 HTTPS 代理处理，修复了多个安全问题。总结：Scrapy 2.9 版本在功能、性能和文档方面均有显著提升，新增了多项实用功能，同时优化了部分核心组件，建议用户更新至最新版本以获得更好的体验。