并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP0 码力 | 43 页 | 9.66 MB | 1 年前3
云时代下多数据计算引擎的设计与实现rights reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发 和产业经验. • 产品 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库 等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. @2024 OpenPie. All rights reserved reserved. OpenPie Confidential 云时代 数据计算 多数据模态支持 广泛的生态支持 “一份数据,多引擎计算”的述求 让数据流动起来 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 简介 一款云原生分布式 分析型数据库 • 元数据、用户数据、计算完全分离. • 用户数据(code0 码力 | 15 页 | 3.09 MB | 1 年前3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎全球敏捷运维峰会 广州站 基于ClickHouse+StarRocks 构建支撑千亿级数据量的高可用查询引擎 演讲人:蔡岳毅 全球敏捷运维峰会 广州站 1. 为什么选择ClickHouse/StarRocks; 2. ClickHouse/StarRocks的高可用架构; 3. 如何合理的应用ClickHouse的优点,StarRocks 如何来补充ClickHouse 的短板;0 码力 | 15 页 | 1.33 MB | 1 年前3
TiDB 开源分布式关系型数据库15荣誉1 07 16 代表用户 08 第二章 TiDB 开源分布式关系型数据库 2.1 产品简介。 2.2 TiDB架构图.ee 10 23 核必特性 11 2.4 TiFlash 高性能列式分析引擎 12 25 TiDB企业 12 2.6 TiDB 社区版与企业版差异 13 第三章 TiDB 生态工具 3.1 数据迁移 . 16 5 分布式数据库工业实现的顶级论文 *。 ”发明专利:一种键值存储系统沙《一种基于共识算法的 HTAP 数据库》 *。 ”计算机软件著作权登记证书: 分布式数据库 TiDB 企业版软件.Tiflash 列式存储引擎软件 一 PingCAP.COM 06 一 1.3 发展历程 2015年4月 获得经续中国领报的天使欠投次 2015年12月 TiDBAIpha 2020 年度亚洲银行家大奖 -直 机 关于 PingCAP 2015年9月 Tipe在GhHub 上开源 2016年4月 独立研发的基于 Google Spanner 的下一代分布式存鱼 引擎Tiky 开乔 2017年6月 获得华创资本领抽的 1500 万美元的日轮融次 18年4月 -TiDB 2.0 GA版本发布 生-TiSpark 1.0 GA版本发布 2018年8月 由-TiDB0 码力 | 58 页 | 9.51 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado op/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而 在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL) 、MOLAP(Kylin)引擎来进行支撑。如下图所示: 如果想及时了 / 8 Apache Doris在美团外卖数仓中的应用实践 Spark大数据博客 - https://www.iteblog.com 所得的应用场景,美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产,在增 量业务,预设维度分析场景下表现良好,但在变化维的场景下生产成本巨大。例如,如果使用最 新商家类型回溯商家近三个月的表现,需要重新计算三个月的Cube,需花费几个小时,来计算近0 码力 | 8 页 | 429.42 KB | 1 年前3
TiDB中文技术文档NoSQL 的最佳特性。 TiDB 兼容 MySQL,支持无限的水平扩展,具备强一致性和高可用性。TiDB 的目标是为 OLTP (Online Transactional Processing) 和 OLAP (Online Analytical Processing) 场景提供一站式的解决方案。 TiDB 具备如下核心特性: 高度兼容 MySQL 大多数情况下,无需修改代码即可从 MySQL 轻松迁移至 行存数据库,同时兼具强大的 OLAP 性能,配合 TiSpark,可提供一站式 HTAP 解决方案,一份存储同时处理 OLTP & OLAP,无需传统繁琐的 ETL 过程。 云原生 SQL 数据库 TiDB 是为云而设计的数据库,同 Kubernetes 深度耦合,支持公有云、私有云和混合云,使部署、配置和 维护变得十分简单。 TiDB 的设计目标是 100% 的 OLTP 场景和 80% 的 OLAP 场景,更复杂的 场景,更复杂的 OLAP 分析可以通过 TiSpark 项目 来完成。 TiDB 对业务没有任何侵入性,能优雅的替换传统的数据库中间件、数据库分库分表等 Sharding 方案。同时它也 让开发运维人员不用关注数据库 Scale 的细节问题,专注于业务开发,极大的提升研发的生产力。 三篇文章了解 TiDB 技术内幕: 说存储 说计算 谈调度 TiDB 简介 TiDB 整体架构 README - 11 - 本文档使用0 码力 | 444 页 | 4.89 MB | 6 月前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库架构 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 核心架构特点 元数据服 务 eMPP分布式 引擎 存储服务 透明数据加密 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g f Confidential D a t a C o m p u t i n g f o r N e w D i s c o v e r i e s 数 据 计 算 , 只 为 新 发 现 02 分布式引擎 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 数 据 计 算 , 只 为 新 发 现 03 用户数据存储 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • Multi-Could 云上设施 • 对象存储 (数据共享,存算分离) • 兼容HDFS,NAS,本地磁盘 • 公有云,私有云,混合云 • 现代的硬件 • CPU/GPU 高速缓存访问0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现⺫的: • 减轻FoundationDB集群负担 • 加速查询优化(⺴络延迟远⾼于内存延迟) • 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于 多集群架构 ⽤户数据存储引擎 • PAX(⾏列混存)配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑: • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 更多⾼阶计算功能 (cont.) • 预计算:很快⾯世 • Data skipping:⽂件裁剪⽀持很快⾯世 • 更多计算引擎⼯作在路上:SIMD, runtime filter,late materization,...... 分布式计算引擎 • MPP弹性计算引擎:按需付费 • 租户隔离(彼此不影响) • ⾼可⽤(⾃动处理各种错误) • ⾼并发 PieCloudDB⽣态 • 各种外0 码力 | 31 页 | 1.43 MB | 1 年前3
Greenplum 精粹文集分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。0 码力 | 64 页 | 2.73 MB | 1 年前3
PieCloudDB 的云原生之路Host 3 Data Table Data Table Data Table IvorySQL开源数据库社区 PieCloudDB 核心架构特点 元数据服 务 eMPP 分布式引擎 存储服务 透明数据加密 优化器 IvorySQL开源数据库社区 01 元数据管理 IvorySQL开源数据库社区 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • 的事务隔离级别 将元组以 key-value 的形式存储 到 FoundationDB 使用 FoundationDB Key 的自然排序实 现索引 IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 03 用户数据存储 IvorySQL开源数据库社区 构建新一代云原生存储引擎 • Multi-Could 云上设施 o 对象存储 (数据共享,存算分离) o 兼容 HDFS,NAS,本地磁盘 o 公有云,私有云,混合云 • 现代的硬件 o CPU/GPU 高速缓存访问0 码力 | 47 页 | 1.80 MB | 1 年前3
共 183 条
- 1
- 2
- 3
- 4
- 5
- 6
- 19













