兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 中 心 染在数学、物理、 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》 高效的 文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能高效地生成统计信息,并生成更高效 的查询计划,达奇优化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector 云原生向量数据库,为大模型提供独特记忆0 码力 | 29 页 | 7.46 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书低了元数据访问的网络延迟,加快了用户数据的访问速度。 PieCloudDB 对数据查询的执行流程在查询执行器中进行了全链路的优化,完整支持 TPC-H 和 TPC-DS 等测试,实现 了包括聚集下推、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 此外,PieCloudDB 兼容 ORCA 优化器(ORCA 是一款开源的、基于 Cascades 接操作需要处理的数据量,使得查询性能显著提升。在很多分析型场景下,聚集下推会取得百倍或千 倍的性能提升。 2. Block Skipping PieCloudDB 实现了Block Skipping的优化机制,在数据库运行查询语句时,通过预计算每个块(block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PieCloudDB PieCloudDB 效的伸缩, 轻松应对PB级海量数据。 基于自主研发的高效优化器--达奇,PieCloudDB可以更智能高效地生成统计信息,并生成更高效的查询计划,达奇优 化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 13 PieCloudDB 产品优势 作为一款云原生虚拟数仓,PieCloudDB 具备的弹性灵活、高性能、稳定成熟等特点,兼备云原生数据库所特有的即0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 • ⼀款云原⽣分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) • Postgres⽣态 • 软件交付版本 • 社区版 (免费获取) • 企业版 skipping、预聚集等. • Encode/Compress • Encryption (TDE) • Large-size column • 访问时候内存Arrow Format • Medium-size block size • …... @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据存储 • 格式为什么不直接使⽤Parquet • 使⽤缓存,⻓远来说分布式缓存. • 虚拟数仓:⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping,预聚集,etc). • S3访问通⽤优化:并⾏化、预读、异步、Mpp引擎"steal". • C++抽象接⼝,访问更多的storage provider (HDFS, NAS, etc). • …... @2022 OpenPie. All rights0 码力 | 24 页 | 2.01 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database社区版安装部署手册V2.1www.openpie.com Cloud Native Virtual Data Warehouse PieCloudDB Deplovment Guide ����� 社区版安装部署手册 ����������������� ©2023 OpenPie All Rights Reserved. ⚫ ⚫ ⚫ ⚫ ⚫ ➢ ➢0 码力 | 42 页 | 3.71 MB | 1 年前3
PostgreSQL 查询优化器解析institution in the field of data computing • PieCloudDB, OpenPie’s flagship product, is a cutting- edge cloud-native data warehouse. It delivers elastic, highly available, and fully adaptable distributed HTAP0 码力 | 37 页 | 851.23 KB | 1 年前3
PieCloudDB Database V2.8 Release Note发布日期: 2023 年 10 月 内 核 l 回收站功能 实现回收站来跟踪逻辑上被删除(TRUNCATE/DROP/ALTER 等)的表,这些 表对应的 S3 Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计算节点为一个查询缓存所需的目录(catalog)信息,在每个虚 拟数仓中 全局缓存系统中添加本地缓存。 l HLL(HyperLogLog)压缩 当 HLL 比较稀疏时支持使用游程编码,可以节省 60%-95% 的存储空间。 2 l 优化 Block Skipping 实现 JANM 的虚拟索引。对于某些特殊的访问方法,表的数据文件/块已经包 含可以用作索引的信息,通过虚拟索引不仅可以利用这些信息来提高性能,而 且能减少维护开销。 制 JANM 访问方法中的 Toast。 n 新增建表选项 page_size,设置生成新 Page 的大小限制,以兆字节为单 位。 n 新增建表选项 block_file_size,设置生成新文件的 Block 文件大小限制, 以兆字节为单位。 n 新增建表选项 num_stat_col,控制文件内统计列数,为每个 JANM 文件 节省 CPU 和元数据大小。默认值为0 码力 | 4 页 | 144.49 KB | 1 年前3
PieCloudDB Database 产品白皮书 了包括聚集下准、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 1. 票集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 接操作需要处理的数据量,使得查询性能显著提升。在很多分析型场景下,聚集下推会取得百倍或千 售的性能提升。 2.Block skipping PiecloudDB 实现了Block Sk Skipping的优化机制,在数据库运行查询语句时,通过预计算每个块block) 中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性能。此外,PiecloudDB PiecloudDB 还支持查询优化器Orca。Orca是一款开源的、基于Cascades 模型的模块化查询优化器, 可以帮助用户对SQL进行优化,生成高效的查询计划。 此外,PieCloudDB 兼容 ORCA 优化器 轻松应对PB级海量数据。 * 全新的优化器 【达: 基于自主研发的高效优化器--达奇,PieCloudD8可以更智能高效地生成统计信息,并生成更高效的查询计划,达奇优 化器支持聚集下推,预计算,Block Skipping等高级特性,全面满足各种复杂的分析查询需求。 12 openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 PiecloudDB0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现OpenPie. All rights reserved. OpenPie Confidential • 使用mstore作为辅助表实现mvcc • 每个block在辅助表中对应一个tuple • update/delete生成一个新的block @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All All rights reserved. OpenPie Confidential branch t2 from t1; 只需要复制辅助表 可以从某个历史版本branch 通过引用计数判断block是否删除 只有在vacuum和branch操作时需要访问引用计数 @2022 OpenPie. All rights reserved. OpenPie Confidential • 数据的载体对象存储作为整个云的基0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 完备的事务 • Block文件级别的MVCC实现 • 优化器与执行器的演进 • 向量化 • 文件查询裁剪(Block Skipping) • 聚集下推扫描(PreAgg Pushdown Scan) @2022 OpenPie. All rights reserved 降低CPU使用率 @2022 OpenPie. All rights reserved. OpenPie Confidential 全链路优化 • 高效的分布式优化器 • 聚集下推 • 预计算 • Block Skipping @2022 OpenPie. All rights reserved. OpenPie Confidential 生态建设 • 更多的云平台的支持 • FDW • Apache0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB Database V2.1 版本说明核 • 聚集下推功能得到增强:通过把聚集操作下推到连接操作之前去执行,极大的减 少连接操作需要处理的数据量,使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制:数据库运行查询语句时,通过计算每个块 (block)中列聚集信息,在执行期间跳过非必要的数据块,减少数据读取量提高查询性 能。 • 极速 Analyze(Smart Analyze): PieCloudDB0 码力 | 3 页 | 257.15 KB | 1 年前3
共 16 条
- 1
- 2













