搜索

pdf文档 云原生中的数据科学KubeConAsia2018Final

14.91 MB 47 页 0 下载 76 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档介绍了现代数据科学在云原生环境中的应用流程,涵盖了从需求发现到模型部署的完整过程。主要内容包括数据科学管道的各个阶段,如数据摄入、特征转换、数据清洗、模型训练及推理等。文档还提到了使用Pachyderm等工具进行数据处理和模型管理,并强调了自动化、可重复性和数据血缘的重要性。
AI总结
### 文档总结:《云原生中的数据科学 - KubeCon Asia 2018》 1. **现代数据科学的流程** - 数据科学的流程包括从**业务需求识别**到**问题发现**,再到**开发、测试、部署**等环节。 - 强调了数据科学与业务需求的结合,以及在实际应用中对用户影响的关注。 2. **数据科学流水线** - 数据科学的流水线涵盖了从**数据获取**到**模型训练、部署和预测**的完整流程。 - 关键环节包括: - 数据获取与清洗 - 特征工程与模型训练 - 模型测试与优化 - 模型部署与推理 3. **云原生与数据科学的结合** - 通过云原生技术(如Kubernetes)实现数据科学流水线的自动化和高效管理。 - 提到了Pachyderm作为数据仓库和流水线开发的案例,展示了其在云原生环境下的应用。 4. **关键观点** - **自动化**:通过CI/CD实现模型的自动化部署和回滚,确保模型的稳定性和可靠性。 - **可重复性**:数据科学流程需具备可重复性,确保实验结果的一致性。 - **数据血缘**:追踪数据来源和处理过程,增强组织对数据的信任。 - **自主性**:数据科学家应具备一定的自主权,以快速响应业务需求。 5. **工具与实践** - 提到了Azure DevOps等工具在数据科学流水线中的应用,展示了如何通过工具链实现高效协作与管理。 总结:文档重点介绍了现代数据科学的流程、工具和实践,并通过云原生技术(如Kubernetes)展示了如何在实际场景中高效管理和部署数据科学模型。Pachyderm作为案例,进一步说明了数据仓库和流水线开发在云原生环境中的重要性。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 35 页请下载阅读 -
文档评分
请文明评论,理性发言.