云原生虚拟数仓 PieCloudDB 的架构和关键模块实现@2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie.0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB Database 产品白皮书 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据 很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运维成本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 的访问速度。 pieCloudDB 对数据查询的执行流程在查询执行器中进行了全链路的优化,完整支持 TPC-H 和 TPC-D5 等测试,实现 了包括聚集下准、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 1. 票集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 接操作需要处理的数据量,使得查0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运 维 成 本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 完整支持 TPC-H 和 TPC-DS 等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 模型的模块化查询优化器,可以帮助用 户对 SQL 进行优化,生成高效的查询计划)。 PieCloudDB 通过独0 码力 | 17 页 | 2.02 MB | 1 年前3
πDataCS赋能工业软件创新与实践均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 :全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也⽆法直接利用云 资源的弹性能⼒。组件太多,导致集群部署和后期运维管理很麻烦,市场上相 关⼈才储备量不多,技术兜底依赖于Cloudera,国内第三⽅公司主要是基础运 维和开发为主。 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎0 码力 | 36 页 | 4.25 MB | 1 年前3
大模型时代下向量数据库的设计与应用与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们!0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB Database V2.1 版本说明于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT: Kafka 流数据导入支持,copy 性能大幅提升。 • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 模块,使用户可以访问包括但不限于 HDFS、MySQL 等数据源,同时支持用户自行开发 模块来访问新的存储数据源 。 管控平台 • 用户权限优化:通过更加清晰的 UI 设计,为用户提供一体化的权限管理 • 注册选项增加:增加了手机注册选项,用户现可选择通过手机或邮件进行用户注 册 • 稳定性优化: o SQL 结果集缓存优化 o 优化端到端访问控制管理和证书管理,增强安全能力0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 04 eMPP架构 存算分离,元数据/缓存/计算/云存储 01 02 03 04 各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式,步骤1 Ø PieCloudDB Foreign Table,postgres扩展,需要为数据源单独开发 Ø 控制节点上读取数据源信息,决定是否拆分,生成任务信息 Ø 计算节点上根据任务信息读取数据源,返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生数据库 PieCloudDB : Unbreakable 安全特性剖析持久化存储区域 主密钥 租户密钥 表密钥 页密钥 用户创建 租户创建 表创建 数据写入 用户信任域 持久化存储区域 数据存储区域 透明加密实现细节 • 模块化实现 • 优化器、执行器不感知 • 模块完美支持自研存储 • 可插拔加密算法库 • 支持不同硬件加密算法 • 支持国密算法 • 不影响用户业务 • 原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块 加密算法库 租户密钥生成 主密钥 用户信任域 租户创建请求 租户密钥生成 主密钥 用户信任域 密钥生成 租户创建请求 加密 租户密钥生成 持久化存储区域 主密钥 用户信任域 密钥生成 租户创建请求 存储 解密 定时器 上级密钥 密钥储存区 PART 04 总结 总结 • 用户侧 • 符合审计流程 • 用户无感知 • 业务不变化 • 研发侧 • 不影响内核迭代 • 独立模块,方便后续扩展 • 无历史包袱 加入我们! • 官 网: https://www.openpie.com • 公 众 号 :PieCloudDB | 拓数派 • 技术社群:扫码添加入群助手0 码力 | 34 页 | 599.00 KB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 • 将来会保持和Postgres内核大版本对齐 团队也拥有丰富的Postgres内核大版本升级合并经验0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.14.2 浏览界面 1. 在 PieCloudDB 初始界面,可以查看右上角的登录信息,也可以切换中英文模式。右上角的 按钮下包含多项用户相关的功能,左侧的菜单栏则展示了各大使用模块。 例如,用户“汤姆”登录后,右上角会显示 piebar的tom。 2. 点击 按钮, 可以看到第一项功能 ,如果需要点击它跳转至“修改用户密码” 界面,输入原密码和新密码后点击0 码力 | 42 页 | 1.58 MB | 1 年前3
共 16 条
- 1
- 2













