系统信息 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

AGI 趋势下的云原生数据计算系统

AGI趋势下的云原生数据计算系统演讲人：徐阳拓数派：大模型数据计算系统先行者 l 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； l 拥有强大的数据库内核研发团队、数据科学家团队和数字化转型团队； l 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。企业介绍云原生数据计算系统围绕数据组织云原生计算系统，重构数据存储和计算，一份存重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代。 02 中国AGI发展趋势中国AGI市场融资非常活跃， AGI顶级人才非常欠缺，整个市场将长期保持快速增长态势。 01 AIGC全生命周期管理基于PieCloudML，为企业构建统一的MaaS框架和AIGC开发框架，对模型和AI Agent进行高效管理。 03 案例分享基于PieDataCS的用户案例实 Agent作为新的研究方向，开始受至越来越多的关注。 AI Agent成为推动AI技术革命的关键力量云原生数据计算系统围绕数据组织云原生计算系统，重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代。 02 云原生数据计算系统大模型数据计算系统概览 • Data Sharing 技术原生支持数据要素流转 • 中国唯一全自研的Table Format技术

0 码力 | 26 页 | 2.84 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

--πDataCS简介兼容龙蜥的云原生大模型数据计算系统拓数派产品市场总监吴疆吴疆深耕云计算和数据库行业十余年拓数派(Openpie)产品市场总监毕业于清华大学计算机系，先后在IBM，EMC， Pivotal，VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介海外研发驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。拓数派旗下大模型数据计算系统（PieDataComputing System，缩写πDataCS），以云原生技术重构数据存储和计算，一份存储，多引擎数据计算，全面升级大数据系统至大模型时代，使得自主可控的大模型数据计算系统保持全球领先，成为AI的基础科技底座的同时，开启AI技术的新范式。 πDataCS旨在助力企业优云原生数仓PieCloudDB 社区版与商业版正式发布极速进入成长期 Day-1 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓拓数派基于阿里云构建公共云数据仓库服务正式上线 6月上榜 EqualOcean 2022年源自中国值得关注的新锐全球化科技品牌

0 码力 | 29 页 | 7.46 MB | 1 年前
3
PieCloudDB Database 社区版集群安装部署手册 V2.1

....................................................................................... 5 2.3 更新系统包和依赖包 ............................................................................................. .......................................................................... 6 2.5 修改 CONFIG.YAML 信息 .................................................................................................. ...................................................................................... 16 3.2 更新系统包和依赖包 .............................................................................................

0 码力 | 42 页 | 1.58 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

云原⽣数仓PieCloudDB 社区版与商业版正式发布极速进⼊成长期 Day-1 2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓拓数派基于阿里云构建公共云数据仓库服务正式上线 6月上榜 EqualOcean 2022年源自中国值得关注的新锐全球化科技品牌与拓数派⼤模型数据计算系统正式亮相，让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位数据计算模型灵活扩展的数据引擎，支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统，以云原⽣技⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算，AI数学模型、数据和计算三者互为增强，全面升级⼤数据系统⾄⼤模型时代，赋能⾏业AI场景应用。具备整体数据平台⽅案，支持多模数据处理（结构化、半结构化以及非结构化数据），实现数据共享和分析。软件优化 + 新硬件（FPGA）加速，实现数据全链路的性能飞跃，让数据存储、SQL查询、向量计算以及机器学习等能⼒全面升级。 @2024 OpenPie

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database 产品白皮书

openpie | PiecloudDB 基于 eMPP (弹性大规模并行计算) 的云原生虚拟数仓产品白皮书百岗行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈 (Global Datasphere) 呈指数级递增， IDC预测全球数据圈将于 > 岛网 ioor mauaeaa 和 i Gartner: 数据库中国市场指南传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 程中，传统 MPP 数据库解决方案迎来了一系列的瓶颈: 传统数据仓库的计算和存情是| 容计算资源和存储资源，在扩缩容、运维、迁移上都存在一，报表结! 传统数据仓库无法及时扩导致大数据系统天价值所带来的商业机会用户在扩必须同时扩企业遇到负时刻或需要紧急得到某个法弹性、快速地分析业务数据，错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

附录：术语表 3 3 3 4 5 6 7 7 8 11 13 15 16 目录行业背景石油是工业的血液，数据是数字经济的“石油”，数据分析则是石油精炼。随着信息技术的发展，互联网应用的加速普及，人类进入了数字经济时代。进入二十一世纪以后，随着移动互联网技术、物联网技术、5G等技术的发展，全球数据圈（Global Datasphere）呈指数级递增， IDC预测全球数据圈将于然而，随着数据量的不断攀升，企业对数据仓库的要求也越来越高，在使用过程中，传统 MPP 数据库解决方案迎来了一系列的瓶颈： 4 传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型的传统分布式数据库系统大多是 MPP（大规模并行计算）架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器例强绑定，因此用户在扩容时，必须同时扩容计算资源和存储资源，在扩缩容、运维、迁移上都存在一定的挑战。当企业遇到负载高峰时刻或需要紧急得到某个报表结果时，传统数据仓库无法及时扩资源，导致大数据系统无法弹性、快速地分析业务数据，错失了充分挖掘数据价值所带来的商业机会。传统数据仓库架构成本高昂传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

元数据和存储系统计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式流式传输 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 最好的 ETL 就是不需要 ETL，各系统共享同一份底层数据 ETL，各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) 收集执行结果，记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE

0 码力 | 29 页 | 5.24 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。 • 极速 Analyze（Smart Analyze）： PieCloudDB 实现极速 Analyze，更快的生成精确的查询规划统计信息，从而在查询时可以生成更优的查询计划。 • 全新的缓存机制：在 PieCloudDB 的计算层，各个计算节点针对元数据都设计了可观察性增强：可得到更多的查询时系统的统计信息，包括元数据管理、S3 等。 • Vacuum 优化：在元数据层通过快速过滤不需要 vacuum 的数据，从而实现 vacuum 加速。 • 存储引擎简墨（JANM）异常处理的优化：避免各种异常情况下数据残留。 • 简墨（JANM）分布式处理增强：更高效的元数据采集和分发，提升用户查询响应时间，降低系统负载 • 简墨（JANM）动态分配读取文件增强简墨（JANM）动态分配读取文件增强 dispatch 性能：此优化将动态的分配要读取的文件给各个执行节点，降低查询的启动代价。 • 原生格式存储：在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持：PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基于 Cascades 模型的模块化查询优化器，帮助用户对 SQL 进行优化，生成高效的查询计

0 码力 | 3 页 | 257.15 KB | 1 年前
3
大模型时代下向量数据库的设计与应用

数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。邱培峰拓数派向量数据库负责人拓数派：大模型数据计算系统先行者 • 拓数派（ OpenPie）是立足于国内的基础数据计算领域高科技创新机构； • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； • 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进 PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道，无法接触到私域数据，对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力，对长时间交互的上下文 Query （filtered） P7 P8 （filtered） P9 P10 （filtered） P2 （filtered）向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息，并将它们关联起来 • 对向量数据建立索引，可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发，为其搭配数据库功能 • 从数据存储方案(关系型

0 码力 | 28 页 | 1.69 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

毕业于中国科技⼤学，AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发，10多年开发经验 • 领域涉及到： • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化（芯⽚KVM⽀持实现）和云计算架构、⾼速⺴络开发（内核和应⽤层如DPDK） • 分布式系统（SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发一个eMPP 云原生分布式SQL数据库以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩 • Block⽂件为⼀个存储(MVCC)单位 • 辅助信息存储⽤于计算优化 • 设计考虑： • ⾼效和精准的统计信息收集 • 存储和计算成本 • 各种计算优化 • SIMD, Cache Line • Data Skipping (本地查询和远程读取） • 预聚集 • ...... 分布式对象存储多副本多可⽤区保证数据安全：“⼀份”数据，避免数据不⼀致 • 将来Time Travel查询“回收站”数据⽤户数据查询效率优化 • 远程访问数据要考虑的点：性能和成本 • 如何解决？ • 数据和/或辅助信息缓存，同时⼀致性Hash减少数据移动 • 读取优化（⽐如异步并⾏等） • 计算优化（各种功能特性持续优化中） • 很多复杂OLAP查询如果不是IO瓶颈，不会受制于它 • …... 计算引擎之优化器

0 码力 | 31 页 | 1.43 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式

AGI 趋势下的云原生数据计算系统

兼容龙蜥的云原生大模型数据计算系统：πDataCS

PieCloudDB Database 社区版集群安装部署手册 V2.1

πDataCS赋能工业软件创新与实践

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

PieCloudDB Database V2.1 版本说明

大模型时代下向量数据库的设计与应用

云原生数据库 PieCloudDB eMPP架构设计与实现