Hadoop 迁移到阿里云MaxCompute 技术方案及开源生态与阿里云大数据生态对比 .............................................................................. 7 2.1.1 主流大数据体系架构 ................................................................................................ Alibaba Cloud MaxCompute 解决方案 7 2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持,同时语法高度兼容 Hive,有0 码力 | 59 页 | 4.33 MB | 1 年前3
尚硅谷大数据技术之Hadoop(入门)年成立的 Hortonworks 是雅虎与硅谷风投公司 Benchmark Capital 合资组建。 (2)公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述 工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。 (3)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 yangge.avi DataNode ss1505_wuma.a vi Container MapTask SecondaryNa meNode 1.6 大数据技术生态体系 大数据技术生态体系 数据库(结构化数据) 文件日志(半结构化数据) 视频、ppt等(非结构化数据) Sqoop数据传递 Flume日志收集 Kafka消息队列 HDFS文件存储 HBase非关系型数据库0 码力 | 35 页 | 1.70 MB | 1 年前3
大数据时代的Intel之HadoopConsumption Capacity Shipped by Model, 2006–2015 (PB) 全球 2012 年产生2.7 ZB(1,000,000 PB)数据, 2015 年150亿部接入设备 大数据时代的数据 2011年每天处理的数据超 过: 24 PB 2011年6月乊前, Facebook平台每天分享资 料: 40亿 智慧城市数据 中国某一线城市: 200PB/季度 英特尔Hadoop功能增强 - 跨数据中心大表 虚拟大表 分中心 A 分中心 B 分中心 C 特点与优势 全局虚拟大表,访问方便 大表数据分区存放在物理分中心 接入仸何分中心可访问全局数据 高可用性 适合本地高速写入 分布式聚合计算,避免大数据传输 英特尔Hadoop发行版 – 主要特色 经实际验证的企业级 Hadoop 发行版 •全面测试的0 码力 | 36 页 | 2.50 MB | 1 年前3
共 3 条
- 1













