搜索

pdf文档 Scrapy 1.8 Documentation

1.44 MB 335 页 0 下载 73 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了Scrapy 1.8.4版本的更新内容,包括新功能、改进、弃用的功能以及用户关心的问题。主要内容涵盖:新增的Scrapy服务scrapyd、Spider队列的改进、Selector API的变化、Feed导出器的增强、弃用的模块和功能、以及对Python 3.7的兼容性支持。文档还详细说明了如何安装、配置和使用Scrapy框架,提供了丰富的教程和示例。
AI总结
《Scrapy 1.8 Documentation》总结如下: ### 主要更新内容 1. **版本发布** - **Scrapy 1.8.4**:修复了多个Bug,改进了文档,新增了功能。 - **弃用和移除功能**: - 移除了早期版本的兼容模块(如`scrapy.command`、`scrapy.contrib`等)。 - 移除了`BeautifulSoup`和`ClientForm`等旧模块。 - 移除了`w3lib`以外的编码检测功能。 2. **新功能与改进** - **Selector API优化**: - 建议使用`.get()`和`.getall()`方法代替`.extract()`和`.extract_first()`。 - 新增`.attrib`属性,方便获取HTML元素属性。 - CSS选择器缓存功能更高效。 - **Feed导出与文件处理**: - 支持嵌套JSON和JSONLines格式。 - 提升了文件和图片下载与处理的效率。 - **日志与调试**: - 新增了调试信息,包括`Referer`头信息。 - 提供了更详细的日志统计功能。 - **Spider管理**: - 新增`CLOSESPIDER_ITEMCOUNT`、`CLOSESPIDER_PAGECOUNT`和`CLOSESPIDER_ERRORCOUNT`设置,用于控制爬虫关闭条件。 - 支持通过`scrapyd`部署Spider,并提供Web界面管理。 3. **性能与兼容性** - **Windows支持**:优化了Windows环境下的运行体验。 - **Python版本**:支持Python 3.7,不再支持Python 2.5。 - **Twisted版本**:不再支持Twisted 2.5。 - **存储后端**:默认使用`DBM`作为HTTP缓存存储后端。 4. **文档改进** - 更新了Selector文档,与Parsel库的最新API保持一致。 - 新增了使用浏览器开发者工具进行抓取的教程,替代旧的Firefox和Firebug教程。 - 优化了新手资源链接和安装说明。 5. **已知问题与解决** - 修复了CSV导出在Windows下的空白行问题。 - 修复了Python 3下序列化对象时的Pickling错误。 - 修复了请求头和表单提交的相关问题。 6. **Deprecation与移除** - 移除了早期版本的信号(如`scrapy.mail.mail_sent`)和扩展(如`StackTraceDump`)。 - 移除了部分旧的设置(如`ENCODING_ALIASES`、`DEPTH_STATS`等)。 7. **其他改进** - 新增了对`sitemap.xml.gz`格式的支持。 - 提升了内存使用统计功能的可移植性。 - 支持通过`scrapyd`的JSON API调度Spider。 ### 核心观点 - **Selector API**:推荐使用新的`.get()`和`.getall()`方法,文档已更新以匹配Parsel库的最新API。 - **性能优化**:提升了文件处理、日志记录和缓存存储的效率。 - **部署与管理**:通过`scrapyd`实现了更灵活的Spider部署和监控。 - **兼容性**:移除早期版本的兼容模块和功能,提升了代码的简洁性和现代性。 总结:Scrapy 1.8版本在功能、性能和文档方面均有较大提升,尤其在Selector API和部署管理方面表现突出,同时修复了多个已知问题,优化了用户体验。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 328 页请下载阅读 -
文档评分
请文明评论,理性发言.