Greenplum数据仓库UDW - UCloud中立云计算服务商
Greenplum数据仓库 数据仓库 UDW 产品⽂档 2 6 7 7 8 10 10 16 38 38 39 39 39 40 43 44 45 46 47 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 产品架构 产品架构 云数据仓库产品架构 ⾼可⽤ 快速上⼿ 快速上⼿ ⼀、创建数据仓库 ⼆、连接数据仓库 操作指南 操作指南 关闭数据仓库 启动数据仓库 启动数据仓库 重启数据仓库 查看数据仓库详情 扩容数据仓库 更改数据仓库密码 续费 删除数据仓库 查看操作⽇志 查看监控 ⽬录 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 2/206 50 50 71 73 73 73 74 74 74 74 75 76 76 79 81 82 90 92 101 101 102 103 104 106 128 访问 访问UDW数据仓库 数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊ 数据导⼊ insert加载数据 copy加载数据 外部表并⾏加载数据 从hdfs加载数据 从mysql中导⼊数据 从oracle中导⼊数据 从ufile加载数据 开发指南 开发指南 1、连接数据库 2、数据库管理0 码力 | 206 页 | 5.35 MB | 1 年前3PieCloudDB Database 产品白皮书
把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 传统数据仓库架构 然而,随着数据量的不断尝升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一, 报表结! 传统数据仓库无法及时扩 导致大数据系统天 价值所带来的商业机会 用户在扩 的云原生虚拟数仓 产品白皮书 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群 擎和数据接口来实现湖 仓一体化架构。通过云原生大数据服务以更低成本满足企业业务高弹性和敏汪性的需求。 pieCloudDB 打破了数据湖与数据仓库割裂的体系,架构上实现了将数据湖的灵活性、生态丰富与数据仓库的企业级 能力充分融合,帮助企业构建数据湖和数据仓库下合的数据管理平台。 PieCloudDB 内置的 foreign-data wrapper 《FDW) 模块,让用户可以访问 HDFS、MySQL0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 1 2 全 球 数 据 圈 预 测 IDC: 3 缺 乏 弹 性 然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 传统数据仓库的计算和存储是紧密耦合的,计算资源和存储资源按某一比例强绑定,因此用户在扩容时,必须同时扩 容计算资源和存储资源,在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个 报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据仓库架构存储和计算的紧密耦合,往往需要企业花费巨大的运维和时间成本,且操作繁 琐。 木 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应0 码力 | 17 页 | 2.02 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— 8 OLAP数据流转 —— dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 新一代数据管理和数据分析解决方案
Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 HPC 企业 SME 万亿字节 千兆字节 兆字节 千万亿字节 万亿字节 千兆字节 行业商务智能解决方案的实例 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群0 码力 | 45 页 | 2.07 MB | 1 年前3阿里云 AnalyticDB for PostgreSQL - 打造更简单易用的Cloud SQL Data Warehouse
for PostgreSQL - 打造更简单易用的Cloud SQL Data Warehouse 个人介绍 缪长风 ⚫ 2010年初加入支付宝,负责Oracle RAC和Greenplum数据仓库 ⚫ 有幸参与了Oracle RAC到 Greenplum再到Hadoop以及最终到 ODPS的架构演进工作。 ⚫ 2012年起,转至阿里巴巴大数据团队,负责Hbase/OTS业务支 撑, PostgreSQL 未来演进 AnalyticDB for PostgreSQL 在线MPP数据仓库服务 简单易用、海量扩展、兼容部分Oracle 语法生态、既支持在线交互分析,也支持离线数据处理。 AnalyticDB for PostgreSQL (云Greenplum)低成本,快速 构筑在线企业数据仓库。 • 应用易开发、适配 支持SQL 2003,部分兼容Oracle语法, 支持PL/SQL (INSERT/UPDATE/DELETE) • 行存储及多种索引(Btree, Bitmap 等),点查询毫秒级返回 • 支持分布式事务,标准数据库隔离级别 基于AnalyticDB for PostgreSQL 构筑云上数据仓库 1:实时数仓场景 通过 DTS/Kettle/rds_dbsync 实时同步交易库数据到 ADBPG MySQL/PG->DTS->ADBPG 2:离线数仓场景 数据集成按天/小时 批量同步交易库数据ADBPG0 码力 | 22 页 | 2.98 MB | 1 年前3Hadoop 迁移到阿里云MaxCompute 技术方案
...................................................................... 15 3.1 迁移基于 Hadoop 的数据湖/数据仓库业务负载 ......................................................................... 15 3.2 不同的网络环境及部署形态迁移 越来越复杂的技术架构和运维成本、平台 的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈,严重阻碍了客户数据业务的发展。随着 云计算技术的发展和普及,越来越多的企业客户选择数据上云,在云上构建数据仓库。以云数 仓、云计算为核心的企业服务架构成为新一代大数据建站的主流趋势。MaxCompute 作为云数 仓、云计算的核心引擎,承载了越来越多企业客户的数据业务和数据资产,免运维、低成本、高 1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 数据源:数据源包括关系型数据库、日志文件、实时消息等。0 码力 | 59 页 | 4.33 MB | 1 年前3美团点评2018技术年货
UAS-点评侧用户行为检索系统 57 ...................................................................... 美团DB数据同步到数据仓库的架构与实践 66 ...................................................................... 不可不说的Java“锁”事 74 的系统。 UAS-点评侧用户行为检索系统 - 美团技术团队 数据的处理 数据的处理 离线处理 离线处理 离线数据的处理,主要依赖的是我们的数据开发同学,在构建用户行为的数据仓库时,我们会遵循一套美 团点评的数据仓库分层体系。 同时我们会出一些比较通用的数据,方便线上用户使用,比如我们会根据用户的行为,发放勋章奖励,其 中一个勋章的发放条件是用户过去30天的浏览商户数量,我们不会直接出一个30天的聚合数据,而是以 化运营的底层数 据驱动能力,着力提升用户运营效率。重点打造点评平台数据中台产品——灯塔。 美团DB数据同步到数据仓库的架构与实践 - 美团技术团队 美团DB数据同步到数据仓库的架构与实践 美团DB数据同步到数据仓库的架构与实践 作者: 萌萌 心序 成聪 背景 背景 在数据仓库建模中,未经任何加工处理的原始业务层数据,我们称之为ODS(Operational Data Store)数0 码力 | 229 页 | 61.61 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
游戏 营销活动 Dbbinlog 数据库采集 Game DB 数 据 管 理 + 元 数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库 采 集 存 储 大数据应用 PaaS平台 数据挖掘与内容推荐 PaaS 精准 推荐 知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 Analytical Engine & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表 多 维 聚 合 iData大数据分析引擎 TGMars TGSpark & Storage 大数据仓库 Hadoop Data Lake 计算引擎 MR & LIMIT 10 一切以用户价值为依归 24 业务应用实践 iData 2 如何使用ClickHouse ClickHouse集群 TGMARS DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划0 码力 | 26 页 | 3.58 MB | 1 年前3Greenplum 精粹文集
式来设计。得益于这种无所不在的并行,Greenplum 在数据加载和数 据计算中表现出强悍的性能,某行业客户对此深有体会 : 同样 2TB 左 右的数据,在 Greenplum 中不到一个小时就加载完成了,而在用户传 统数据仓库平台上耗时半天以上。 在该用户的生产环境中,1 个数百亿表和 2 个 10 多亿条记录表的全表 关联中(只有 on 关联条件,不带 where 过滤条件,其中一个 10 亿 条的表计算中需要重分布),Greenplum Greenplum 精粹文集 9 Greenplum 建立在 Share-nothing 无共享架构上,让每一颗 CPU 和 每一块磁盘 IO 都运转起来,无共享架构将这种并行处理发挥到极致。 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 主要定位在 OLAP 领域,利用 Greenplum MPP 数据库做大数据计算或分析平台非常适合,例如 : 数据仓库系统、 ODS 系统、ACRM 系统、历史数据管理系统、电信流量分析系统、移 动信令分析系统、SANDBOX 自助分析沙箱、数据集市等等。 Big Date2.indd 11 16-11-220 码力 | 64 页 | 2.73 MB | 1 年前3
共 95 条
- 1
- 2
- 3
- 4
- 5
- 6
- 10