Hadoop 迁移到阿里云MaxCompute 技术方案
及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。 数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。 批处理: 分析型数据存储 数据仓库: GreenPlum/Impala/Presto/Hive NoSQL:Hbase 数据仓库:MaxCompute/ Hologres/分析 型数据库 NoSQL:云数据库 Hbase 版/表格存储 分析与报表 BI 工具 Notebook QuickBI PAI Notebook 组件 EMR Notebook 组件 数据作业编排 MaxCompute 解决方案 13 Defined Type、GROUPING SET(CUBE/rollup/GROUPING SET)、脚本运行模式、参 数化视图 * 支持外表(外部数据源+StorageHandler 支持非结构化 数据) MapReduce MaxCompute MR 支持 MapReduce 编程接口(提供优化增强的 MaxCompute MapReduce0 码力 | 59 页 | 4.33 MB | 1 年前3Curve核心组件之mds – 网易数帆
Curve核心组件之 MDS 陈威Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景:块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多 • 已开源 • github主页: https://opencurve.github.io/ • github代码仓库: https://github Coordinator,内部根据该信息判断当前copyset是否 有配置变更任务执行,如果有任务则下发。 任务计算: 任务计算模块包含了多个定时任务 和 触 发任务。 • 定时任务由调度模块定时触发。 • 触发任务由外部触发,管理员通过工具触发。 • TopoAdapter 用于获取Topology中调度需要使用的数据。 • Common Strategy 是通用的副本添加和移除策略。 任务管理: 任务管理模块用于管理计算模块产生的任务。 • RecoverScheduler 是恢复调度器,根据当前 copyset副本的存活状态生成迁移任务。 触发任务: • RapidLeaderScheduler 是快速leader均衡器, 由外部触发,一次生成多个leader变更任务, 使得集群的leader尽快达到均衡状态。 rSCHEDULE • 集群负载和资源均衡 • leader copyset scatter-width •0 码力 | 23 页 | 1.74 MB | 5 月前3
共 2 条
- 1