pdf文档 云原生中的数据科学KubeConAsia2018Final

14.91 MB 47 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要介绍了云原生环境中数据科学的应用,特别是在KubeCon Asia 2018会议上的相关内容。文档强调了数据科学管道的重要性,包括从问题发现到生产的完整流程,并重点讨论了数据科学中的关键原则:自主权、可重复性、数据血缘和自动化。文档还提到了Sam Kreter在会议上的演讲内容,并提供了相关的资源和工具链接,如Pachyderm和Azure Kubernetes Service。
AI总结
# 《云原生中的数据科学 - KubeCon Asia 2018》总结 ## 核心观点: 1. **自主性**:数据科学家需要自由选择工具和方法,避免被固定流程束缚。 2. **可重复性**:确保数据科学实验和结果能够被准确复现。 3. **数据血缘**:清晰追踪数据来源和处理过程,确保数据的可信度。 4. **自动化**:通过自动化工具和流程提升效率,减少人工干预。 ## 数据科学流程: - **业务需求与问题发现**:明确业务目标,识别数据科学问题。 - **开发**:构建实验和模型。 - **生产**:部署和监控模型,确保实际用户需求得到满足。 ## 工具与资源: - **Pachyderm**:用于数据流水线和机器学习模型的自动化部署。 - **Data Science Bill of Rights**:确保数据科学家的权益和最佳实践。 - **Azure Container Registry Build**:用于容器构建和镜像管理。 - **Azure Kubernetes Service**:支持数据科学管道的容器化和 orchestration。 - **Pipeline Images**:提供预构建的机器学习管道镜像。 总结:云原生环境为数据科学提供了高效、可扩展的解决方案,通过自动化、可重复性和数据血缘管理,帮助数据科学家更专注于业务问题的解决,同时确保模型的稳定性和可靠性。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 35 页请下载阅读 -
文档评分
请文明评论,理性发言.