| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档详细介绍了Scrapy 2.11版本的更新内容,包括新增功能、改进和弃用项。主要亮点包括:新增对Python 3.11的支持,移除对Python 3.6的支持;引入对AJAX可爬链接的支持;新增持久化爬虫队列,允许暂停和恢复爬取;优化异步回调支持和libxml2 XPathSelector性能。文档还提到一些弃用的模块和设置,如decompression中间件和DBM作为默认缓存后端。此外,还包括Selctor API的改进和Telnet控制台的安全性增强。 | ||
| AI总结 | ||
以下是《Scrapy 2.11 Documentation》的中文总结:
---
### **Scrapy 2.11 文档总结**
#### **1. 版本信息**
- **版本号**:Scrapy 2.11.1
- **发布日期**:2024年3月1日
---
#### **2. 主要内容结构**
文档内容分为以下几个主要部分:
1. **入门指南**
- 包含安装指南、教程、示例等内容,适合新手快速上手。
2. **基础知识**
- 介绍了Scrapy的核心概念,包括命令行工具、爬虫、选择器、项目管道、请求与响应等。
3. **内置服务**
- 包括日志记录、统计收集、邮件发送、Telnet控制台等功能。
4. **解决特定问题**
- 提供常见问题解答、调试技巧、爬虫合约、动态内容抓取等实用内容。
---
#### **3. 新功能与改进**
- **新功能**:
- 支持AJAX可爬取URL。
- 新增持久化调度器,支持暂停和恢复爬虫。
- 增加`-o`选项,支持将抓取的物品导出到文件。
- 支持通过`scrapyd`的`schedule.json` API传递自定义设置。
- 新增对Python 3.11的支持,移除对Python 3.6的支持。
- 默认启用`asyncio`支持。
- 选择器API改进:推荐使用`.get()`和`.getall()`方法,替代`.extract()`和`.extract_first()`。
- 新增`.attrib`属性,简化HTML元素属性的获取。
- CSS选择器缓存优化。
- **其他改进**:
- 提升`libxml2` XPath选择器性能。
- 修复多个已知问题,包括请求对象文档错误、链接抽取器缺陷等。
- 改进日志记录、统计收集和内存泄漏调试功能。
---
#### **4. 弃用与移除**
- **已弃用**:
- `scrapy.downloadermiddlewares.decompression`模块。
- `DBM`作为默认HTTP缓存存储后端(被`file`替换)。
- `REFERER_ENABLED`设置(已移除)。
- `TRACK_REFS`设置(已移除)。
- `DBM`作为默认HTTP缓存存储后端。
- **已移除**:
- 不再支持`sqlite`相关代码。
- 移除多个旧模块,如`scrapy.command`、`scrapy.contrib`等。
- 移除`CrawlerSettings`类和`Settings.overrides`、`Settings.defaults`属性。
---
#### **5. 兼容性与注意事项**
- **Python版本要求**:
- 支持Python 3.7及以上版本,移除对Python 3.6的支持。
- **依赖项更新**:
- `lxml`:从3.5.0升级到4.3.0。
- `Pillow`:从4.0.0升级到7.1.0。
- `zope.interface`:从5.0.0升级到5.1.0。
---
#### **6. 文档更新**
- 修复了多个文档错误和排版问题。
- 更新了选择器文档,以匹配最新的`parsel`库。
- 新增了使用浏览器开发者工具进行抓取的教程。
- 文档新增了`SCRAPY_PROJECT`环境变量的说明。
---
#### **7. 质量保障与维护**
- 重新启用部分之前被禁用的`flake8`检查。
- 忽略无害的弃用警告。
- 现代化CI配置,提升测试效率。
- 修复了多个潜在的内存泄漏和性能问题。
---
#### **8. 其他**
- 新增了调试爬虫的详细指南。
- 提供了如何报告问题和编写补丁的详细说明。
- 更新了代码规范和贡献者指南,采用 Contributor Covenant v2.1。
---
总结:
Scrapy 2.11版本在功能、性能和文档方面均有显著提升,新增了对异步爬虫和AJAX爬取的支持,优化了选择器和调度器的性能,并修复了多个已知问题。同时,文档内容更加完善,适合开发者快速上手和深入使用。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
418 页请下载阅读 -
文档评分














Scrapy 2.11 Documentation
The Weblate Manual 2.11