PieCloudDB Database 产品白皮书 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据 很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运维成本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 集群管控节点,提供数据洞察和集群运维等功能,支持可视化的数据 分析、性能监控、集群启停、自动化部署以及权限管控等能力; 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运 维 成 本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 集群管控节点,提供数据洞察和集群运维等功能,支持可视化的 数据分析、性能监控、集群启停、自动化部署以及权限管控等能力; 数据应用层: 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。0 码力 | 17 页 | 2.02 MB | 1 年前3
πDataCS赋能工业软件创新与实践均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 :全面升级Hadoop⼤数据和Greenplum数仓⾄云原⽣数据平台 是⼀个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国产软硬件兼容性差,不符合信创趋势,也⽆法直接利用云 资源的弹性能⼒。组件太多,导致集群部署和后期运维管理很麻烦,市场上相 关⼈才储备量不多,技术兜底依赖于Cloudera,国内第三⽅公司主要是基础运 维和开发为主。 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCSfor New Discoveries”「数据计算,只为新发现」为使命,致力于在数字原生时代,运用突破性计算理论、 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构 我们秉承硅谷创新文化和普及数字化公益等社会责任。在公司成长的过程中,不遗余力为人才提供一个成为业内明星的平 台和通道。 郭罡(Paul Guo) 合 伙 人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师 陆公瑜(Brian Lu) 合 伙 人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人 私有云 Mundo元数据管理系统 统一Catalog 是一个存储系统+计算框架的软件框架。主要解决海量数据存储与计算的问题,是 大数据技术中的基石。让用户可以在不了解分布式底层细节的情况下,开发分布 式程序,以一种可靠、高效、可伸缩的方式进行数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库0 码力 | 29 页 | 7.46 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 资源伸缩快速简单 • 计算、存储:按需付费 • 智能管理,复杂交给*aaS厂商 PieCloudDB 重要特点 eMPP ACID; 完备的事务支持 (隔离级别:RR, RC) 完善的SQL标准支持 安全可靠 友好的用户接口(websql, ODBC/JDBC driver等). 云原生 云中立 • 弹性计算资源(横向纵向)、极速调整 • 多集群是另外一个弹性的维度 • 共享用户数据(如按需付费的对象存储)0 码力 | 31 页 | 1.43 MB | 1 年前3
PieCloudDB 的云原生之路企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原生 Serverless 架构 ü 第三方计费模式 ü 持续产品升级,体验产品最新特性 ü 丰富的社区活动,赋能社区用户 ü 强大的开发者支持 ü 云原生 eMPP 专利技术支持与赋能 ü 7*24小时产品故障服务响应 ü 基于业务需求的专家团队服务 ü 国产化软硬件,技术自主可控 ü 存算分离支持独立扩容 ü 全面适配信创环境 IvorySQL开源数据库社区 文本 时间序列分析 机器学习 数据转换 深度学习 传统BI 地理信息 PieCloudDB 设计原则:100%符合DB标准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的 SQL 标准 Ø ACID 事务 IvorySQL开源数据库社区 PART 03 PieCloudDB 架构特点 IvorySQL开源数据库社区 数仓虚拟化:可将0 码力 | 47 页 | 1.80 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现@2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 OpenPie Confidential • Agg • Subplan • Sublink • Outer join • Window agg • Materialized view ANSI 标准 SQL 的完备支持 @2022 OpenPie. All rights reserved. OpenPie Confidential • 全面的逻辑优化(谓词下推,子查询子链接提升,外连接消除) Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie.0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路企业版/社区版 云上云版 ü 领先的数仓虚拟化技术 ü 云原⽣Serverless架构 ü 第三⽅计费模式 ü 持续产品升级,体验产品最新特性 ü 丰富的社区活动,赋能社区⽤户 ü 强⼤的开发者⽀持 ü 云原⽣eMPP专利技术⽀持与赋能 ü 7*24⼩时产品故障服务响应 ü 基于业务需求的专家团队服务 ü 国产化软硬件,技术⾃主可控 ü 存算分离⽀持独⽴扩容 ü 全⾯适配信创环境 深度学习 传统BI 地理信息 P i e C l o u d D B 设 计 原 则 : 1 0 0 % 符 合 D B 标 准 100%兼容DW生态体系 Ø 关系型数学 Ø 完整的SQL 标准 Ø ACID 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential 数仓虚拟化:可将多个数仓统一整合到一个高可用的云虚拟数仓0 码力 | 44 页 | 1.64 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅Confidential 关于我 • 18年+基础软件⼀线经验 • 9年:Unix/Linux应⽤和内核开发、虚拟化(芯⽚KVM内核⽀持)、⾼速 ⽹络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. reserved. OpenPie Confidential PieCloudDB内核的下⼀步 • 优化器 • 功能更全、OLAP更友好、更加贴近云原⽣需求. • 计算引擎 • V1(正在开发中): SIMD执⾏器和各种计算优化. 甚⾄依赖于云成本. • V2: Pipeline引擎. • V3: 计算引擎资源调度隔离 - 类似⼀个计算操作系统.0 码力 | 24 页 | 2.01 MB | 1 年前3
大模型时代下向量数据库的设计与应用在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 PieCloudVector • 兼容国产硬件和操作系统 PieCloudVector • 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们!0 码力 | 28 页 | 1.69 MB | 1 年前3
共 15 条
- 1
- 2













