AGI 趋势下的云原生数据计算系统AGI趋势下的云原生数据计算系统 演讲人:徐阳 拓数派:大模型数据计算系统先行者 l 拓数派( OpenPie)是立足于国内的基础数据计 算领域高科技创新机构; l 拥有强大的数据库内核研发团队、数据科学家团 队和数字化转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据 计算引擎方向进行创新,全面拥抱AI技术趋势。 企业介绍 云原生数据计算系统 围绕数据组织云原生计算系统, 重构数据存储和计算,一份存 重构数据存储和计算,一份存 储,多引擎数据计算,全面升 级大数据系统至大模型时代。 02 中国AGI发展趋势 中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 个市场将长期保持快速增 长态势。 01 AIGC全生命周期管理 基于PieCloudML,为企业构 建统一的MaaS框架和AIGC开 发框架,对模型和AI Agent进 行高效管理。 03 案例分享 基于PieDataCS的用户案例实 Agent作为新的研究方向,开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量 云原生数据计算系统 围绕数据组织云原生计算系统,重构数据存储和计算, 一份存储,多引擎数据计算,全面升级大数据系统至大 模型时代。 02 云原生数据计算系统 大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 • 中国唯一全自研的Table Format技术0 码力 | 26 页 | 2.84 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优 云原生数仓PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌0 码力 | 29 页 | 7.46 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) 存在时做更新或者删除 • 数据需要包含顺序键 (OK),以决定操作生效的顺序 • 数据可以重复,但不可以有事务逻辑错误 • Merge/Upsert 模式,步骤1 将数据解析完成,导入与目标表类型相同的临时表中 SELECT r.a, r.b+r.c, func(r.d) … FROM (SELECT meta, raw FROM foreign_table LATERAL JOIN formatter(raw)0 码力 | 29 页 | 5.24 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie Confidential mstore — FoundationDB上的Catalog 使用和 Postgres 相同方式存储元数据 —— 将元数据存储在系统表中 实现新的基于key-value的存储来存放系统表 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n g rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential 实时加解密 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 用户成本 (存储成本) • 自动选取适应类型的编码 • 压缩 • 减少对象存储的访问开销 • OLAP 性能 • 多级缓存 • 行列混合存储 • 定义内外存的数据格式 • 文件内统计信息 • 智能Analyze @2022 OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1....................................................................................... 5 2.3 更新系统包和依赖包 ............................................................................................. ...................................................................................... 16 3.2 更新系统包和依赖包 ............................................................................................. ....... 41 1. 集群规划 此次准备了 3 台虚拟机,具体信息如下: 序号 角色 主机名 IP 地址 操作系统 用户名/密码 PieCloudDB 版本 操作系统版本 1 K8S 的 Master pie4 10.24.31.154 root/openpie V2.1.1 Centos 7 2 K8S0 码力 | 42 页 | 1.58 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 @2022 OpenPie. All rights reserved. OpenPie Confidential 数据的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 • 系统表以 mstore 的方式存储在 FoundationDB OpenPie Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @20220 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB Database V2.1 版本说明可观察性增强:可得到更多的查询时系统的统计信息,包括元数据管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum 的数据,从而实现 vacuum 加速。 • 存储引擎 简墨(JANM) 异常处理的优化: 避免各种异常情况下数据残留。 • 简墨(JANM)分布式处理增强:更高效的元数据采集和分发,提升用户查询响 应时间,降低系统负载 • 简墨(JANM)动态分配读取文件增强 简墨(JANM)动态分配读取文件增强 dispatch 性能:此优化将动态的分配要 读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 支持数据导入时自由切入/切出页面,无需用户在导入界面停留等待 o 支持 text 文本格式 o 统一报错信息 • 数据库信息:增加表的大小(size) 信息展示 • 计算集群:外部接入支持更多类型,用户可以更加灵活的配置端口范围0 码力 | 3 页 | 257.15 KB | 1 年前3
大模型时代下向量数据库的设计与应用数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 • 支持二进制索引 • 支持多级索引如HNSW+IVF等 • CPU多核并行/GPU加速 PieCloudVector • Faiss与postgres内核对接 - 基础接口 • 增加向量列类型用于基本的加载与卸载 • 实现向量距离运算符 • 实现向量近似搜索的索引,调用faiss PieCloudVector • Faiss与postgres内核对接 - 数据可见性 • fai PieCloudVector • Faiss与postgres内核对接 - gpu搜索的特殊路径 • 避免并发调用gpu • 查询请求按批单线程提交 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB 的云原生之路云原生数据库 PieCloudDB 简介 IvorySQL开源数据库社区 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的角度是隔离,同时具 备数据共享的能力。 例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云 IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区 计算 • 多租户隔离 • 容量和带宽独立于计算伸缩 • 可按使用量付费0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路rights reserved. OpenPie Confidential 数据 计算 发现 数据:云上数据既是隔离也是连通。从安全的⾓度是隔离,同时具 备数据共享的能⼒。 例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云 rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 44 页 | 1.64 MB | 1 年前3
共 19 条
- 1
- 2













