云原生数据库PieCloudDB 性能优化之路
郭峰 拓数派 云原生数据库PieCloudDB 性能优化之路 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设计基础,首 创全新 eMPP 分布式技术,帮助企业建立竞争壁垒的同时,实现数据价 值最大化,并在新基建中承担可靠和可控的世界级云数据库底座。 PostgreSQL优化器简介 PieCloudDB优化器之分布式特性简介 PieCloudDB优化器之云原生特性简介 Q/A Contents 录 目 01 • 分发约束条件,收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作,例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 •0 码力 | 26 页 | 711.44 KB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
PieCloudDB: 基于PostgreSQL的eMPP 云原生数据库 吴疆 OpenPie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential !"#$%&'()*+,-./01234567489:;1<=>= 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 使用简单 功能齐全 性能极致 安全可靠 @2022 OpenPie. All rights reserved 计算节点间 并行执行 多个更小的 计划单元 @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 @2022 OpenPie. All rights reserved0 码力 | 45 页 | 1.32 MB | 1 年前3云原生数据库 PieCloudDB : Unbreakable 安全特性剖析
云原生数据库 PieCloudDB : Unbreakable 安全特性剖析 王 淏 舟 P i e C l o u d D B 资 深 技 术 专 家 O p e n P i e | 拓 数 派 打造立足于国内 基础数据计算领域的世界级高科技创新驱 动机构 !"#$%&'()*+,-./01234567489:;1<=>=? @AB3C>75D?EAF?G4H?<7IJAK4F74I8L$MNO:PQR(STQUV: 加密用户数据 • 使用高强度加密算法 • AES-GCM 128 bit,AES-GCM 256 bit … • 特点 • 用户无感知 • 数据写入自动加密,读取自动解密 透明加密的作用 • 将数据库数据从明文存储转为加密存储 • 避免数据被系统运维人员直接读出 • 不依赖公有云/私有云/系统加密 • 用户合规需求 • 数据安全审计 • 业务安全审计 PART 02 需求和挑战 来自用户的需求(1) SIMD 支持 • 减少因为密钥泄露而造成的损失 • 多级密钥 • 密钥加密密钥 • 用户无感知 • 自动生成次级密钥 • 密钥自管理 • 分区加密 技术挑战(2) • 和数据库存储结合 • 不影响数据库内核(执行器,优化器) • 不修改/添加元数据表格式 • 业务拟合 • 不影响原有用户的查询\业务 • 不影响外围组件(ETL) PART 03 透明加密的实现 密钥管理0 码力 | 34 页 | 599.00 KB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
•• ..... ......... ........ 蛐••• `` 一· I ...,... .. - ---- 矶0 HotDB 第 DATABA _届中国数据库技术大会 E TECHNOLOGY 拒产 ,rll&ttom 肖毛 线上直播 l CONFERE CE CHI \ 价值8 ChinaUrnx ,千UB A 2022 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 • 现Pre-A轮融资,已完成数亿元融资。 • 核⼼团队来⾃于各⼤⼚名校,有丰富的数据库(Greenplum,DB2, 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储0 码力 | 31 页 | 1.43 MB | 1 年前3大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似0 码力 | 28 页 | 1.69 MB | 1 年前3PieCloudDB Database 社区版集群安装部署手册 V2.1
.................................................................................. 32 4.3 创建集群和数据库 .................................................................................................. .............................................................................. 39 5. 外部工具或者应用连接配置 ................................................................................................ 5.3 修改数据库用户密码 .................................................................................................................................................................... 40 5.4 配置连接访问 ....0 码力 | 42 页 | 1.58 MB | 1 年前3πDataCS赋能工业软件创新与实践
OpenPie Confidential 杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景 与中国⼈民⼤学成立实习基地,打造中 国的云原⽣数据库世界级智⼒⾼地 11月 4月 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼ 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 引领数据库⾏业全面⾛向云时代 8月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会0 码力 | 36 页 | 4.25 MB | 1 年前3PieCloudDB Database 产品白皮书
20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB ,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的到来,不仅使得计算成本极大地降低,也提供了无限丰富的计算资源,释放出数据计算产生智能的 更多机会。早在2019年,Gartner便做出预测: 数据库市场的未来在云上 作。在2022年首次发布的《数据库中国市场 指南》 (Market Guide Guide for DBMS,China) 中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平 生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 OpenpPie | PiecloudDB 基于eMPP0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
(弹性大规模并行计算)的云原生虚拟数仓 产品白皮书 www.OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的到来,不仅使得计算成本极大地降低,也提供了无限丰富的计算资源,释放出数据计算产生智能的 更多机会。早在2019年,Gartner便做出预测:数据库市场的未来在云上 。在2022年首次发布的《数据库中国市场 指南》(Market 指南》(Market Guide for DBMS,China)中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平。云原生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 1 2 全 球 数 据 圈0 码力 | 17 页 | 2.02 MB | 1 年前3云原生虚拟数仓 PieCloudDB 的架构和关键模块实现
在世界范围内的统计信息显示,Nosql和数据湖已经不在数据分析 领域占有主要市场 • Nosql和数据湖缺少很多支持数据分析的重要特性 o 缺少在高并发场景下的隔离性和一致性 o 和现有的BI工具很难集成 • 关系型数据库已经重新成为数据分析的主要平台 NoSQL 和数据湖已经不再是数据分析的主要平台 @2022 OpenPie. All rights reserved. OpenPie Confidential Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie OpenPie Confidential • 公有云无限的计算池可以提供理想的弹性计算资源 • 公有云廉价且无限容量的对象存储 • 传统数仓缺乏弹性和存算分离,难以利用公有云的优势 以关系型数据库为基础的数据仓库很难适应云环境 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算引擎方面 • 完备的SQL语言支持 • 高效的分布式计算能力0 码力 | 43 页 | 1.14 MB | 1 年前3
共 19 条
- 1
- 2