PieCloudDB Database V2.1 版本说明于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 稳定性优化: o SQL 结果集缓存优化 o 优化端到端访问控制管理和证书管理,增强安全能力 o 一键部署优化 • 数据洞察优化: o SQL 结果页面 UI 更新,界面更加简洁优雅。优化超长结果显示,可支持选中结 果直接复制 o 支持执行请求时自由切入/切出页面,不影响用户进行其他操作 o 支持快捷键执行请求 o 支持 sql 文本查找/替换 文本查找/替换 • 数据导入优化: o 支持数据导入时自由切入/切出页面,无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息:增加表的大小(size) 信息展示 • 计算集群:外部接入支持更多类型,用户可以更加灵活的配置端口范围0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 语句到 PieCloudDB 控制节点 • 收集执行结果,记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计 存在时做更新或者删除 • 数据需要包含顺序键 (OK),以决定操作生效的顺序 • 数据可以重复,但不可以有事务逻辑错误 • Merge/Upsert 模式,步骤1 将数据解析完成,导入与目标表类型相同的临时表中 SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw)0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现苀:数据胚产口 市 用时间 I ` • • ..... . ;· ······ o . 着 .....萨·······' 1 ·一...... :·· 干:” .一: 出 击r 击 .... ... . . . r . . 嘶 · ... ... ............. 一..... .................. .. 嚷············· 嚷·············,•• ..... ......... ........ 蛐••• `` 一· I ...,... .. - ---- 矶0 HotDB 第 DATABA _届中国数据库技术大会 E TECHNOLOGY 拒产 ,rll&ttom 肖毛 线上直播 l CONFERE CE CHI \ 价值8 ChinaUrnx ,千UB ,千UB A 2022 2022/12/14-16 2OlO OynamoDB CirroD 叩i Hubble B . SinoOB Ste 云树Sh可d :.. G.IIX卢罩" abr ::::· … .• e …. pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 20220 码力 | 31 页 | 1.43 MB | 1 年前3
πDataCS赋能工业软件创新与实践Greenplum产品及社区核⼼成员 均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 • 原Greenplum中国社区发起⼈ • Greenplum社区从0到万 冯 雷(Ray Von) 创 始 ⼈ & C E O • 浙江物理奥赛银牌得主 • 北京⼤学物理经济学双学位 • 卡内基梅隆⼤学(CMU)硕⼠学位,校友会主席 • 原Pivotal/Greenplum(中国)创始⼈ @2024 OpenPie. 按需弹性开启/关闭虚拟数仓,灵活配置存算节点 ü 打破数据孤岛,消除数据多副本 @2024 OpenPie. All rights reserved. OpenPie Confidential P i e C l o u d D B 云 原 ⽣ 虚 拟 数 仓 核 ⼼ 价 值 物理数仓整合到云原⽣数据计算平台,根据数据授 权动态创建虚拟数仓,打破数据孤岛,解决数据多 副本问题,帮助企业降低数仓管理复杂度,以更低0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库rights reserved. OpenPie Confidential !"#$%&'()*+,-./01234567489:;1<=>=? @AB3C>75D?EAF?G4H?<7IJAK4F74I8L$MNO:PQR(STQUV: WXYZ[[\]^_`ab:cWdefghijklmnopqmr struvw&xyz{bZ|}~•€•‚ƒ„ …†‡ˆ‰Š‹Œ$M•674@ŽAC•<•:;‡NO‘’Q“Nk”:•x 存储服务 透明数据加密 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g f o r N e w D i s c o v e r i e s 数 据 计 算 , 只 为 新 发 现 01 元数据管理 @2022 OpenPie. All rights reserved. OpenPie 实现新的基于key-value的存储来存放系统表 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g f o r N e w D i s c o v e r i e s 数 据 计 算 , 只 为 新 发 现 02 分布式引擎 @2022 OpenPie. All rights reserved. OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书中,每份元数据都将以多副本的形式分散到多 个服务节点,并支持定时备份,以确保避免因为用户数据的丢失而造成的损失。 PieCloudDB 采用高效并行的方式进行数据加载和处理,处理速度随节点增加而提升,支持流数据快速加载。 PieCloudDB 的 eMPP(弹性大规模并行计算)架构让数据计算可以自动化弹性伸缩,用户可以根据计算任务灵活的分 配最优数量的节点执行查询。同时PieCloudDB的多集群能 少量数据时,提高Cache命中率,减少 I/O 次数。 PieCloudDB实现了存储中立,支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式,还支持部署在存 储系统的开源格式,例如 Parquet。 此外,PieCloudDB 针对对象存储进行了优化,对分布式处理和写处理进行了增强,在特定查询场景下,避免了重组 操作,提高了 I/O 效率。 eMPP 分布式技术0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 Guide for DBMS, China > 岛 网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 中,每份元数据都将以多副本的形式分散到多 个服务 并支持定时备份,以确保避免因为用户数据的丢失而造成的损失。 , 高性能的数仓引擎 PieCloudDB 采用高效并行的方式进行数据加载和处理,处理速度随节点增加而提升,支持流数据快速加载。 PieCloudDB 的eMPP (弹性大规模并行计算) 架构让数据计算可以自动化弹性伸缩,用户可以根据计算任务灵活的分 配最优数量的节点执行查询。同时PieCloudDB的多集群能力 除支持自己的存储格式,还支持部署在存 储系统的开源格式,例如 Parquet。 此外,PieCloudDB 针对对象存储进行了优化,对分布式处理和写处理进行了增强,在特定查询场景下,避免了重组 操作,提高了 /0O 效率。 * eMPP 分布式技术 Openpie发明了云原生虚拟数仓的eMPP (elastic Massive Parallel Processing ) 分布式专利技术,在云上, PieC0 码力 | 17 页 | 2.68 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路虚拟机⾼在线 服 务 器 虚 拟 化 数 仓 虚 拟 化 @2022 OpenPie. All rights reserved. OpenPie Confidential P i e C l o u d D B 产 品 版 本 和 部 署 方 式 一体机 企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原⽣Serverless架构 ü 第三⽅计费模式 ü 持续产品升级,体验产品最新特性 硬 件 企 业 版 社 区 版 云 上 云 版 一 体 机 @2022 OpenPie. All rights reserved. OpenPie Confidential P i e C l o u d D B 新 一 代 云 原 生 虚 拟 数 仓 核 心 价 值 多个数仓归并⾄云虚拟数仓,打破传统数仓场景下 数据孤岛,解决数据多副本问题,帮助企业降低数 仓管理复杂度,以更低的成本实现存算资源在云上 OpenPie. All rights reserved. OpenPie Confidential 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 P i e C l o u d D B 设 计 原 则 : 1 0 0 % 符 合 D B 标 准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的SQL 标准 Ø ACID 事务 @2022 OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved. OpenPie Confidential • Nosql本身对于高级分析支持差 o 图形,地理信息 • Nosql对于复杂查询的支持差 OpenPie Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @2022 SELECT a.i, avg(b.y) FROM a JOIN b ON a.i = b.j GROUP BY a.i; Gather Motion 3:1 (slice1; segments: 3) -> Finalize GroupAggregate Group Key: a.i -> Sort Sort Key: a.i -> Hash Join Hash Cond: (a.i = b0 码力 | 43 页 | 1.14 MB | 1 年前3
云原生数据库PieCloudDB 性能优化之路扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作,例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT … 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径,并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间,为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制 (A leftjoin B on (Pab)) innerjoin C on (Pbc) != A leftjoin (B 3) -> Partial HashAggregate Group Key: t2.b -> Seq Scan on t2 D a t a C o m p u t i n g f o r N e w D i s c o v e r i e s 数 据 计 算 , 只 为 新 发 现0 码力 | 26 页 | 711.44 KB | 1 年前3
共 18 条
- 1
- 2













