搜索

epub文档 Scrapy 2.9 Documentation

686.52 KB 503 页 0 下载 101 浏览 0 评论 0 收藏
语言 格式 评分
英语
.epub
3
摘要
Scrapy是一个快速的高级网络爬取和网页抓取框架,用于爬取网站并从其页面中提取结构化数据。文档详细介绍了Scrapy的基本概念、安装指南、教程以及从版本0.9到2.9之间的更新,包括新功能、改进、移除的API以及文档更新。此外,还提到了与Parsel库的集成,以及对telnet控制台的安全性改进。
AI总结
### Scrapy 2.9 文档总结 #### 1. Scrapy 概述 - Scrapy 是一个快速的高层次网络爬取和抓取框架,用于爬取网站并从其页面中提取结构化数据。 - 可用于数据挖掘、网站监控和自动化测试等多种用途。 #### 2. 获取帮助 - 提供多种途径获取帮助:FAQ、索引、StackOverflow、Reddit、邮件列表、IRC频道、Discord社区等。 #### 3. 安装指南 - 提供详细的安装说明,确保用户能够快速完成 Scrapy 的安装。 #### 4. 基本概念 - 介绍了 Scrapy 的核心概念,包括爬虫、Spider、爬虫管理器、统计收集器等。 #### 5. 命令行工具 - 介绍了用于管理 Scrapy 项目的命令行工具,包括新功能和改进: - `scrapy.crawler.Crawler` 替代了 `scrapy.core.manager.ScrapyManager`。 - 移动模块:`scrapy.contrib.spidermanager` 移动到 `scrapy.spidermanager`。 - 统计收集器的改进:`scrapy.statscol.SimpledbStatsCollector` 移动到 `scrapy.contrib.statscol.SimpledbStatsCollector`。 #### 6. 设置(Settings)的变化 - 新增设置: - `HTTPCACHE_IGNORE_SCHEMES`:用于忽略特定方案的 HTTP 缓存。 - `SPIDER_QUEUE_CLASS`:定义使用的爬虫队列。 - `KEEP_ALIVE`:启用连接保持。 - 移除设置: - `SERVICE_QUEUE` - `COMMANDS_SETTINGS_MODULE` #### 7. 新功能与改进 - **新特性**: - 支持 SMTP-AUTH,新增 `MAIL_USER` 和 `MAIL_PASS` 设置。 - 新增 `scrapy-ctl view` 命令,用于在浏览器中查看 URL。 - 新增 Web 服务用于控制 Scrapy 进程,替代旧版 Web 控制台。 - 支持作为服务运行,适用于生产环境。 - 新增 `parsel` 库的集成,优化选择器性能。 - **改进**: - 提升文档质量,优化教程内容。 - 支持通过 `from_crawler` 初始化扩展、存储和过滤器。 - 新增 `itemap_filter()` 方法,允许子类选择器根据属性选择sitemap条目。 #### 8. 弃用与移除 - **弃用的 API**: - `scrapy.conf`:建议使用 `Crawler.settings`。 - `scrapy.log`:建议使用新日志模块。 - `scrapy.spiders.BaseSpider`:建议使用 `Spider`。 - **移除的 API**: - `scrapy.deploy` 命令。 - `Django Item`。 - `SgmlLinkExtractor`。 #### 9. 选择器 API 变化 - 依赖 `parsel` 版本 ≥1.5,优化选择器性能: - 推荐使用 `.get()` 和 `.getall()` 替代 `.extract_first()` 和 `.extract()`。 - 引入 `Selector.attrib` 和 `SelectorList.attrib` 属性,简化 HTML 属性获取。 #### 10. Telnet 控制台 - **变化**:Telnet 控制台现在需要用户名和密码,增强安全性。 #### 11. 新增扩展性功能 - **信号**: - 新增 `item_error` 和 `request_reached_downloader` 信号。 - 新增 `sitemap_filter()` 方法。 - **懒加载**:可选懒加载下载器处理程序,优化初始化错误处理。 #### 12. 文件和媒体管道功能 - **S3 文件存储**:新增更多选项,如 `AWS_ENDPOINT_URL`、`AWS_USE_SSL` 等。 - **修复**:修复 `IMAGES_EXPIRES` 默认值回归为 90。 #### 13. 文档改进 - 更新了部署文档,新增 `scrapyd-deploy` 和 `shub` 的部署内容。 - 优化了教程和架构文档,修复了多个文档错误。 #### 14. 其他注意事项 - **兼容性**:部分弃用的功能仍保持兼容性,但建议尽快迁移。 - **性能与安全**:优化了内存统计和 HTTPS 代理处理,修复了多个安全问题。 总结:Scrapy 2.9 版本在功能、性能和文档方面均有显著提升,新增了多项实用功能,同时优化了部分核心组件,建议用户更新至最新版本以获得更好的体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 496 页请下载阅读 -
文档评分
请文明评论,理性发言.