云原生数据库PieCloudDB 性能优化之路郭峰 拓数派 云原生数据库PieCloudDB 性能优化之路 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 • 利用Motion产生分布式的查询计划 • 这些分布式的查询计划会被分为更小的单元,并被分发到不同的工作节点中并行执行 • 对于聚集操作,利用分布式的优势,在工作节点之间通过多阶段聚集来提升性能 # explain (costs off) select sum(b) from t group by a; QUERY PLAN -----------------------------0 码力 | 26 页 | 711.44 KB | 1 年前3
πDataCS赋能工业软件创新与实践reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS 赋能⼯业软件创新与实践 吴疆 拓数派产品社区总监 CONTENTS @2024 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司 使命:数据计算,只为新发现 愿景:成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构 价值观:以⼈为本、开放创新、拥抱变化、诚信正直 拓数派中国总部与全球分支机构 海 外 研 发 中 ⼼ 北京研发中⼼ 杭 州 总 部 上海全球品牌战略与⽣态发展中⼼ ⼴州研发中⼼ @2024 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 2021 2022 当天即获得头部产业基⾦天使轮投资 成为Day-1准独角兽 7月 与中国⼈民⼤学成立实习基地,打造中 国的云原⽣数据库世界级智⼒⾼地 11月 4月 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼0 码力 | 36 页 | 4.25 MB | 1 年前3
云时代下多数据计算引擎的设计与实现reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) @2024 OpenPie. All rights reserved. OpenPie Confidential 关 于 拓 数 派 • 成立于2021年,以“Data Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential janm 格式 行列混存(PAX) 为极致的数据计算而设计和优化 解析性能极致 (vs Parquet, etc) @2024 OpenPie. All rights reserved. OpenPie Confidential JANM: 大数据计算系 统云存储底座 • low-cardinality string aggregation • late materialization • Pipeline Engine、etc • 和JANM结合有大量可能的性能创新点. • 长远目标: • 赋能其他产品. • 赋能更多的计算形态. • 云上计算调度. @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 15 页 | 3.09 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 按需启动数据源(插件)导出 • 发送 SQL 语句到 PieCloudDB 控制节点 • 收集执行结果,记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 • • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 (TDE) • 分布式对象存储多副本多可⽤区保证数据安全:“⼀份”数据, 避免数据不⼀致 • 将来Time Travel查询“回收站”数据 ⽤户数据查询效率优化 • 远程访问数据要考虑的点:性能和成本 • 如何解决? • 数据和/或辅助信息缓存,同时⼀致性Hash减少数据移动 • 读取优化(⽐如异步并⾏等) • 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest Neighbor • 在已有的N个向量中找出与给定向量距离最近的K个向量 Query0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB Database 产品白皮书 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 Annual Size of the Global Datasphere zetabytes 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 琐。 木桶效应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖幸”整个集群的性能,导致查询速度变慢。 随卷时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数据瑰岛 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书2025年增长值175ZB,而中国的数据圈有望于2025年爆炸式增长为世界第一 。数据被称为数字经济时代的“石 油”,如同石油驱动了工业化时代的进步,大数据将推动智能化与数字化时代的发展。 数据量的爆发式增长 为了挖掘数据的价值,企业面临着海量数据的存储与分析需求,业务也面临着更多热点及突发流量所带来的挑战。面 对数据计算(Data Computing)的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样,企业的数字 桶 效 应 传统 MPP 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅• 参考云被认同的时间线. • 弹性伸缩(成本 & 性能 & 灵活). • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠 使⽤简单 功能⻬全 性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 wrapper访问Parquet, etc. @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访 没有耗时的2PC分布式事务. @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 • 性能变好 • 聚集下推⽀持. • 预计算⽀持. • Block skipping初步⽀持. • 元数据系统持续的性能优化 • ... @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路0 码力 | 24 页 | 2.01 MB | 1 年前3
PieCloudDB Database V2.1 版本说明Note 版本号:V2.1 发布日期:2022 年 10 月 内 核 • 聚集下推功能得到增强:通过把聚集操作下推到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 HDFS、MySQL 等数据源,同时支持用户自行开发0 码力 | 3 页 | 257.15 KB | 1 年前3
共 19 条
- 1
- 2













