云原生数据库 PieCloudDB : Unbreakable 安全特性剖析减少因为密钥泄露而造成的损失 • 多级密钥 • 密钥加密密钥 • 用户无感知 • 自动生成次级密钥 • 密钥自管理 • 分区加密 技术挑战(2) • 和数据库存储结合 • 不影响数据库内核(执行器,优化器) • 不修改/添加元数据表格式 • 业务拟合 • 不影响原有用户的查询\业务 • 不影响外围组件(ETL) PART 03 透明加密的实现 密钥管理 • 主密钥由用户提供 页密钥 用户创建 租户创建 表创建 数据写入 用户信任域 持久化存储区域 数据存储区域 透明加密实现细节 • 模块化实现 • 优化器、执行器不感知 • 模块完美支持自研存储 • 可插拔加密算法库 • 支持不同硬件加密算法 • 支持国密算法 • 不影响用户业务 • 原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 对应存储区域 内存 存储 解密 定时器 上级密钥 密钥储存区 PART 04 总结 总结 • 用户侧 • 符合审计流程 • 用户无感知 • 业务不变化 • 研发侧 • 不影响内核迭代 • 独立模块,方便后续扩展 • 无历史包袱 加入我们! • 官 网: https://www.openpie.com • 公 众 号 :PieCloudDB | 拓数派 • 技术社群:扫码添加入群助手0 码力 | 34 页 | 599.00 KB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现ChinaUrnx ,千UB A 2022 2022/12/14-16 2OlO OynamoDB CirroD 叩i Hubble B . SinoOB Ste 云树Sh可d :.. G.IIX卢罩" abr ::::· … .• e …. pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 团队深度理解Postgres内核代码,在社区参与诸多贡献 PieCloudDB 架构 元数据管理 基于 MVCC 的事务隔离级别 使用 FoundationDB Key 的自然排序 实现索引 将元组以 key-value 的形式存储 到 FoundationDB 元数据管理 • 临时状态存储(如lock等) 也放在FoundationDB • 依赖于FoundationDB的KV特性、可串⾏化事务、watcher机制0 码力 | 31 页 | 1.43 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全 个成为业内明星的平 台和通道。 郭罡(Paul Guo) 合 伙 人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师 陆公瑜(Brian Lu) 合 伙 人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人 冯 雷(Ray Von) 原Pivotal/Greenplum(中国)创始人 • 卡内基梅隆大学(CMU)硕士学位,校友会主席 强 悍 的 研 发 核 心 团 队 和 有 成 功 上 市 经 验 的 管 理 团 队 具备国际顶级数据库内核研发能力的研发团队 2021 2022 当天即获得头部产业基金天使轮投资 成为Day-1准独角兽 7月 与中国人民大学成立实习基地,打造中国 的云原生数据库世界级智力高地 11月 4月0 码力 | 29 页 | 7.46 MB | 1 年前3
πDataCS赋能工业软件创新与实践OpenPie Confidential 杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景:成 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 • 原Greenplum中国社区发起⼈ 仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理 PieCloudDB有个很优秀的智能云原⽣平台 • ⾯向⽤⼾ • ⾯向运维 • ⾯向管理 • ⽣态相关产品也很丰富 • 但今天会焦距数据库内核 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 (内核Only) • 第⼀步单机Postgres版本上实现存算分离 • 第⼆步分布式化 @2022 OpenPie. All rights OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 最后设计格式:JANM (简墨) • ⼀个S3⽂件内所有数据MVCC可⻅性⼀致 (U/D/I写新⽂件). • ⾏列混存,Cache访问友好. • 附带元数据⽤于data skipping、预聚集等. • Encode/Compress • Encryption (TDE)0 码力 | 24 页 | 2.01 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 PieCloudVector • 使用faiss开源算法库做为向量搜索引擎 • 支持主流的ann算法,如ivf和hnsw等0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 • 将来会保持和Postgres内核大版本对齐 团队也拥有丰富的Postgres内核大版本升级合并经验 @2022 OpenPie. All rights reserved. OpenPie 享,避免拷贝和维护多份数据副本 存储 @2022 OpenPie. All rights reserved. OpenPie Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务0 码力 | 45 页 | 1.32 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现ETL方案设计与实现 邱培峰 拓数派 技术专家 云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式0 码力 | 29 页 | 5.24 MB | 1 年前3
AGI 趋势下的云原生数据计算系统AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统,0 码力 | 26 页 | 2.84 MB | 1 年前3
如何从零开始参与技术社区?⾏ 业 技 术 创 新 典 范 拓 数 派 : ⼤ 模 型 数 据 计 算 系 统 先 ⾏ 者 •拓数派( OpenPie)是⽴⾜于国内的基础数据计算领域⾼科 技创新机构; •拥有强⼤的数据库内核研发团队、数据科学团队和数字化转 型团队; •国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全⾯拥抱AI技术趋势。 @2024 OpenPie. All rights reserved0 码力 | 25 页 | 871.00 KB | 1 年前3
共 15 条
- 1
- 2













