Volcano加速金融行业大数据分析平台云原生化改造的应用实践## Volcano加速金融行业大数据分析平台 云原生化改造的应用实践 汪洋,华为云 Volcano 社区核心贡献者 ## 大数据平台云原生面临的挑战 传统大数据平台云原生化改造成为必然趋势 大数据分析、人工智能等批量计算场景深度应用于金融场景 ## 云原生大数据平台 传统服务 大数据 人工智能  ## 大数据、AI等批量计算场景云原生化面临的挑战 ## 作业管理缺失 Pod级别调度,无法感知上层应用 • 缺少作业概念、缺少完善的生命周期的管理 • 缺少任务依赖、作业依赖支持 ## 调度策略局限 JobOrderFn TaskOrderFn PreemptableFn Gang plugin JobOrderFn PreemptableFn JobReadyFn ## 用户案例:荷兰ING银行大数据平台云原生化改造   IBM $ ^{®} $ ## 简介 Apache Hadoop技术通过支持新的流程和架构,不断改进大数据措施的经济性和活力,这样不仅有助于削减 称为MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些问题,才能安享各项优势,最大限度提高投资回报率(ROI)。 ## 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和分析大数据方面实现了范式转变。无论是要更深入的分析,还是希望获得更出色的洞察、新产品、 据来实现大数据与Hadoop项目。实现所有这些目标需要运用富有弹性的端到端信息集成解决方案,该解决方案不仅可实现大规模扩展,还能提供支持Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发精力用于数据集成,只有20%的精力投入到数据分析中。” —Intel Corporation, “使用 Apache Hadoop 抽取、转换和加载大数据” $ ^{1}0 码力 | 16 页 | 1.23 MB | 2 年前3
大数据时代的Intel之Hadoop## 大数据时代的Intel之Hadoop 系统方案架构师:朱海峰 英特尔 $ ^{®} $ 中国云计算创新中心 2013.4 北京 ## 法律声明 本文所提供之信息均与英特尔 $ ^{®} $ 产品相关。本文不代表英特尔公司或其它机构向任何人明确或隐含地授予任何知识产权。除相关产品的英特尔销售条款与条件中列明之担保条件以外,英特尔公司不对销售和/或使用英特尔产品做出其它任何明确或隐含的担 不提供任何担保或保证。本列表和/或这些设备可随时更改,恕不另行通知。 版权所有 $ ^{©} $ 2012英特尔公司。所有权保留。 ## 提纲 • 大数据时代的新挑战 • 大数据时代的Intel • 关注产业应用,产研相互促进 ## 大数据时代的数据  ## 大数据时代的数据 传统数据 数据量 GB $ \rightarrow $ TB 速度 数据量稳定,增长不快 多样化 主要为结构化数据 价值 统计和报表 大数据 TB -> PB以上 持续实时产生数据, 年增长率超过60% 半结构化,非结构化,多维数据 数据挖掘和预测性分析 “大数据”指数据集的大小超过了现有典型的数据0 码力 | 36 页 | 2.50 MB | 2 年前3
TensorFlow on Yarn:深度学习遇上大数据## 深度学习 + 大数据 TensorFlow on Yarn ## 李远策 2017年4月17日   ## SparkFlow介绍 SparkFlow: 360系统部大数据团队设计的TensorFlow on Spark解决方案  ## QCon ## 全球软件开发大会 大会:5月6–8日 培训:5月9–10日 ## QCon 北京 广州 ## 大会:11月21–22日 培训:11月23–24日 ## About Me • 分析产品负责人@PingCAP 曾就职于网易杭研,担任 BigData Infra Team Lead - 主要关注大数据,分布式数据库,SQL on Hadoop 等领域 ## 实时场景技术选型 ## 案例分析 我希望做一个实时分析系统,提供运营人员实时查询当前经营数据 - 我需要一个存储系统当做 Data Sink ☐ Binlog 实时同步,存储系统需要能高频更新 TiDB 的协议兼容让同步 MySQL 数据库尤其方便 ☐ 多维度复杂查询,需要索引和完整的 SQL 支持 ☐ 使用 Spark 进行复杂数据分析 ☐ 全局实时汇聚,展现一个统一的逻辑视图 ## 实时数仓 - 易果生鲜 # 尚硅谷大数据技术之 Hadoop(入门) (作者:尚硅谷大数据研发部) 版本:V3.3 ## 第 1 章 Hadoop 概述 ### 1.1 Hadoop 是什么  ## Hadoop是什么 尚硅谷 1)Hadoop是一个 4)学习和模仿Google解决这些问题的办法:微型版Nutch。 5)可以说Google是Hadoop的思想之源(Google在大数据方面的三篇论文) GFS --->HDFS Map-Reduce --->MR BigTable --->HBase 让天下没有难学的技术 更多 Java - 大数据 - 前端 - python 人工智能资料下载,可百度访问:尚硅谷官网 ## Hadoop发展历史 Apache 基金会。 8)2006年3月份,Map-Reduce和Nutch Distributed File System(NDFS)分别被纳入到Hadoop项目中,Hadoop就此正式诞生,标志着大数据时代来临。 9)名字来源于Doug Cutting儿子的玩具大象   Huawei CloudBU Principal Engineer ## 架构师成长路径指南  扫码查看0 码力 | 25 页 | 3.84 MB | 2 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)# 尚硅谷大数据技术之 Hadoop(生产调优手 # 册) (作者:尚硅谷大数据研发部) 版本:V3.3 ## 第 1 章 HDFS—核心参数 ### 1.1 NameNode 内存生产配置 ## 1 )NameNode 内存计算 每个文件块大概占用 150byte,一台服务器 128G 内存为例,能存储多少文件块呢? 128 * 1024 * 1024 * 1024 / 150Byte 3088 NodeManager 2611 NameNode 3271 JobHistoryServer 2744 DataNode 更多 Java – 大数据 – 前端 – python 人工智能资料下载,可百度访问:尚硅谷官网 ## 尚硅谷大数据技术之 Hadoop(生产调优手册) 3579 Jps [atguigu@hadoop102 ~]$ jmap -heap 2611 Heap Configuration: 1.3]$ hadoop fs -mv /user/atguigu/.Trash/Current/user/atguigu/input /user/atguigu/input 更多 Java – 大数据 – 前端 – python 人工智能资料下载,可百度访问:尚硅谷官网 ## 第 2 章 HDFS—集群压测 在企业中非常关心每天从 Java 后台拉取过来的数据,需要多久能上传到集群?消费者关心多久能从0 码力 | 41 页 | 2.32 MB | 2 年前3
1.1 Go在大数据开发中的经验总结Go在大数据开发中的实战经验 七牛云一孙健波 GopherChina 2017 ’ alt=‘OCR图片’/> 自我介绍 孙健波 七牛云 大数据开发高级工程师 《Docker容器与容器云》主要作者 Pandora ’ alt=‘OCR图片’/> 七牛在大数据方面做了什么? 一站式大数据服务平台 Pandora GopherChina 2017 简单·可信赖 成熟而复杂的大数据生态 成熟而复杂的大数据生态 ’ alt=‘OCR图片’/> 简单·可信赖 Pandora是什么? ’ alt=‘OCR图片’/> 简单·可信赖 pandora的理念 将多样的大数据工具整合 将复杂的大数据管理简化 构建完整的大数据生命周期闭环 ’ alt=‘OCR图片’/> 简单·可信赖 Pandora产品架构 简单·可信赖 Pandora的系统架构 GopherChina0 码力 | 38 页 | 6.37 MB | 1 月前3
共 520 条
- 1
- 2
- 3
- 4
- 5
- 6
- 52













