云原生数据库PieCloudDB 性能优化之路
郭峰 拓数派 云原生数据库PieCloudDB 性能优化之路 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 PostgreSQL优化器简介 PieCloudDB优化器之分布式特性简介 PieCloudDB优化器之云原生特性简介 Q/A Contents 录 目 01 • 预处理阶段 • 通过逻辑上的等价变换,把查询树转换为更加简单高效的等式 • 分发约束条件,收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫 02 • PieCloudDB优化器拓展了PostgreSQL优化器,使其适用于分布式架构 • 引入了Motion的概念,使得数据可以在不同的工作节点之间移动 • 利用Motion产生分布式的查询计划 • 这些分布式的查询计划会被分为更小的单元,并被分发到不同的工作节点中并行执行 • 对于聚集操作,利用分布式的优势,在工作节点之间通过多阶段聚集来提升性能 # explain (costs0 码力 | 26 页 | 711.44 KB | 1 年前3PostgreSQL 查询优化器解析
0 码力 | 37 页 | 851.23 KB | 1 年前3PieCloudDB Database 产品白皮书
琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖幸”整个集群的性能,导致查询速度变慢。 随卷时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数据瑰岛 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争整垒。 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算)0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将 分布式技术,可将物理数仓整合到云原生数据 计算平台,根据数据授权动态创建虚拟数仓,按需灵活计算,打破数据孤岛,支撑更大模型所需的数据和计算。 PieCloudDB 为企业构建「坚如磐石」的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚 拟化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争壁垒。 7 PieCloudDB 产品架构 PieCloudDB 整体架0 码力 | 17 页 | 2.02 MB | 1 年前3πDataCS赋能工业软件创新与实践
计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie. All rights reserved. OpenPie Confidential 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也⽆法直接利用云 资源的弹性能⼒。组件太多,导致集群部署和后期运维管理很麻烦,市场上相 关⼈才储备量不多,技术兜底依赖于Cloudera,国内第三⽅公司主要是基础运 维和开发为主。 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎 场景的数 据处理,业务开发周期短,现存的代码基本可以⽆缝迁移和复用。 国内自主研发,具备社区版、商业版以及云SaaS服务,与国产软硬件完美兼容, 属于信创产业。支持公有云,可充分利用云资源的弹性能⼒。组件少,提供可 视化管理平台,运维管理简单,通过短暂学习即可掌握,⽆论是原厂商还是⽣ 态合作伙伴都可以直接提供技术服务,7 * 24的安⼼保障。 @2024 OpenPie. All rights0 码力 | 36 页 | 4.25 MB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
• 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 减轻FoundationDB集群负担 • 加速查询优化(⺴络延迟远⾼于内存延迟) • 以Postgres原⽣的元数据缓存概念为基础,优化重构实现适⽤于 多集群架构 ⽤户数据存储引擎 • PAX(⾏列混存)配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑: • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache ⽤户数据查询效率优化 • 远程访问数据要考虑的点:性能和成本 • 如何解决? • 数据和/或辅助信息缓存,同时⼀致性Hash减少数据移动 • 读取优化(⽐如异步并⾏等) • 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它0 码力 | 31 页 | 1.43 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 使用简单 功能齐全 性能极致 安全可靠 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 重要特点 eMPP 完备的事务支持 完善的SQL标准支持 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie. All rights Multi-Could 云上设施 • 对象存储 (数据共享,存算分离) • 兼容HDFS,NAS,本地磁盘 • 公有云,私有云,混合云 • 现代的硬件 • CPU/GPU 高速缓存访问 • 数据的局部性优化 (SIMD) • 现代存储技术 • 新硬件的使用 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎0 码力 | 45 页 | 1.32 MB | 1 年前3PieCloudDB Database V2.1 版本说明
发布日期:2022 年 10 月 内 核 • 聚集下推功能得到增强:通过把聚集操作下推到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Vacuum 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能):0 码力 | 3 页 | 257.15 KB | 1 年前3PieCloudDB:云原生分布式虚拟数仓的诞生之旅
• 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠 使⽤简单 功能⻬全 性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 OpenPie Confidential 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访问通⽤优化:并⾏化、预读、异步、Mpp引擎"steal". • C++抽象接⼝,访问更多的storage QE节点元数据主要由QD精准⾼效dispatch. • Dispatcher各种优化. • 没有耗时的2PC分布式事务. @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 • 性能变好 • 聚集下推⽀持. • 预计算⽀持. • Block skipping初步⽀持. • 元数据系统持续的性能优化 • ... @2022 OpenPie. All0 码力 | 24 页 | 2.01 MB | 1 年前3PieCloudDB 的云原生之路
技术保证了所有数据在落盘前完成加密,服务 器无感知技术(Serverless)利用云上无限计算资 源和弹性保证了虚拟数仓永远在线可用,S3 存储和 跨云灾备能力保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开无限数据计算空间, 更好地赋能业务发展并走向绿色。 降低数仓硬件和管理成本 提升数据计算资源利用效益 坚如磐石 | 高安全 高在线 高可靠 突 破 性 创 新 计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 效的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping 等高级特性,全面满足各种复杂的分析查询需求。 IvorySQL开源数据库社区 文本 时间序列分析 Table Data Table Data Table IvorySQL开源数据库社区 PieCloudDB 核心架构特点 元数据服 务 eMPP 分布式引擎 存储服务 透明数据加密 优化器 IvorySQL开源数据库社区 01 元数据管理 IvorySQL开源数据库社区 实现多节点共同访问的数据存储 实现分布式锁 • 高可用和多集群 • Multi-master •0 码力 | 47 页 | 1.80 MB | 1 年前3
共 18 条
- 1
- 2