πDataCS赋能工业软件创新与实践均已加⼊拓数派。成员毕业自 CMU、北⼤、清华和科⼤少年班 等顶级学术机构,并有成员获有 奥赛奖牌。 郭罡(Paul Guo) 合 伙 ⼈ & C T O • 中国科技⼤学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum首席内核架构师 • Apache HAWQ PMC成员 陆公瑜(Brian Lu) 合伙⼈&COO • 英国约克⼤学 • 15年+产品⽣态建设和运营管理经验 2023 引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原⽣虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会 杭州萧⼭区政府“⼀事⼀议”支持政策获 批 9月 拓数派上榜《毕马威中国-未来独角兽 ⼈⼯智能创新 双30企业(长江三角洲地区)》 10月0 码力 | 36 页 | 4.25 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS大彼时“理科实验班”(现元培项目)浸染在数学、物理、 计算机和经济学,获得物理经济学双学位。(北大报道)研究生就读卡内基梅隆大学。(InfoQ报道) • 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 我们秉承硅谷创新文化和普及数字化公益等社会责任。在公司成长的过程中,不遗余力为人才提供一个成为业内明星的平 台和通道。 郭罡(Paul Guo) 合 伙 人 & C T O • 中国科技大学少年班 • 18年+底层基础软件领域开发经验 • 原Greenplum/HAWQ首席内核架构师 陆公瑜(Brian Lu) 合 伙 人 & C O O • 英国约克大学 • 15年+产品生态建设和运营管理经验 • 原Greenplum中国社区发起人 2023引领数据计算时代到来 3月 2023拓数派战略暨新产品发布会 重磅发布πDataCS数据计算系统首个计算引擎 PieCloudDB云原生虚拟数仓 拓数派基于阿里云构建公共云数据仓库服务 正式上线 6月 上榜 EqualOcean 2022年源自中国值 得关注的新锐全球化科技品牌 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始人冯雷再度荣登数字商业周刊“年度智造中国商业领袖”0 码力 | 29 页 | 7.46 MB | 1 年前3
PieCloudDB Database 产品白皮书 很多受欢迎的数据库仓库均为分布式数据库,而典型 分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时,所有机器同时并行计算,理论上最 把计算时间降低到单机部署的 1/n (n为机器数量) ,节省了海量数据的处理时间。 时刻或需要紧急得到某个 法弹性、快速地分析业务数据,错失了充分挖掘数据 Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 传统数据仓库价格高昂的软硬件、开发运维人员的高晶薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统数据 很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运维成本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。 MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录, MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时,所有机器同时并行计算,理论上最高可以 把计算时间降低到单机部署的 1/n(n为机器数量),节省了海量数据的处理时间。 报表结果时,传统数据仓库无法及时扩资源,导致大数据系统无法弹性、快速地分析业务数据,错失了充分挖掘数据 价值所带来的商业机会。 传 统 数 据 仓 库 架 构 成 本 高 昂 传统数据仓库价格高昂的软硬件、开发运维人员的高昂薪资需要企业进行巨大的前期投入。传统数据仓库客户的生产 环境资源利用率,无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长,面临数据库的扩 容和升级时,由于传统 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运 维 成 本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB 的云原生之路构建坚如磐石的 eMPP 云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布 PieCloudDB「云上云」版 云原生数仓虚拟化引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 IvorySQL开源数据库社区 免费试用 PieCloudDB 云上云版:https://app.pieclouddb.com IvorySQL开源数据库社区 目录 数据库的云原生远景 时具 备数据共享的能力。 例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从而建立竞争壁垒。 1 2 3 产 品 行 业 高 质 量 发 展 注 入 加 速 度 云 计 算 时 代 的 到 来 数 据 计 算 时 代 的 到 来 服务器整合,降低服务器硬件成本 云计算平台统一运维降低成本 服务器资源池可用空间增大 数据资源池可用空间增大 虚拟机动态迁移对硬件无感知 数仓整合,降低服务器硬件或者虚拟机成本 数据计算平台统一 运维降低成本 虚拟数仓数仓高在线 虚拟数仓动态 spinoff/retire0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路构建坚如磐石的eMPP云原生数仓 3月 2023拓数派战略暨新产品发布会 重磅发布PieCloudDB「云上云」版 云原生数仓虚拟化 引领数据计算时代到来 拓数派基于阿里云构建公共云数据仓库服务 正式上线 @2022 OpenPie. All rights reserved. OpenPie Confidential https://app.pieclouddb.com CONTENTS 时具 备数据共享的能⼒。 例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从⽽建⽴竞争壁垒。 1 2 3 产 品 行 业 高 质 量 发 展 注 入 加 速 度 云 计 算 时 代 的 到 来 数 据 计 算 时 代 的 到 来 服务器整合,降低服务器硬件成本 云计算平台统⼀运维降低成本 服务器资源池可⽤空间增⼤ 数据资源池可⽤空间增⼤ 虚拟机动态迁移对硬件⽆感知 数仓整合,降低服务器硬件或者虚拟机成本 数据计算平台统⼀ 运维降低成本 虚拟数仓数仓⾼在线 虚拟数仓动态spinoff/retire对计算资源⽆感知0 码力 | 44 页 | 1.64 MB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现毕业于中国科技⼤学,AI相关专业 • 毕业 1 年后到现在⼀直从事底层基础软件开发,10多年开发经验 • 领域涉及到: • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化(芯⽚KVM⽀持实现)和云计算架 构、⾼速⺴络开发(内核和应⽤层如DPDK) • 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 实时ETL/ELT性能对⽐PieCloudDB 1.0有巨⼤提升 • 流处理:原⽣⽀持kafka数据导⼊和查询, 在PieCloudDB侧导⼊ 实现exactly once语义 智能化云原⽣平台 (数据服务平台) 面向用户,做到开箱即用:离数据分析更近, 离繁琐操作更远; 面向运维,降低部署门槛:在不同的基础设施都能发挥 实力; 面向管理,让管理更轻松:让数据分析运行更透明; 设计目的 智能化云原⽣平台:⾯向⽤户、开箱即⽤0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 开发和性能优化等实践经验。 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们! 麦思博(msup)有限公司是一家面向技术型企业的培训咨询机构,携手2000余位 中外客座导师,服务于技术团队的能力提升、软件工程效能和产品创新迭代,0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB Database V2.1 版本说明全新的缓存机制:在 PieCloudDB 的计算层,各个计算节点针对元数据都设计了 多层缓存结构。 其中,针对元数据,PieCloudDB 实现了元数据层全新的缓存机制,有效减少了访问元 数据服务器带来的网络通信开销和元数据服务器的负载,提高元数据访问的速度。 • 可观察性增强:可得到更多的查询时系统的统计信息,包括元数据管理、S3 等。 • Vacuum 优化:在元数据层通过快速过滤不需要 vacuum • 外部数据源的查询(实验性功能): PieCloudDB 支持 foreign-data wrapper 模块,使用户可以访问包括但不限于 HDFS、MySQL 等数据源,同时支持用户自行开发 模块来访问新的存储数据源 。 管控平台 • 用户权限优化:通过更加清晰的 UI 设计,为用户提供一体化的权限管理 • 注册选项增加:增加了手机注册0 码力 | 3 页 | 257.15 KB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现@2022 OpenPie. All rights reserved. OpenPie Confidential • 使用数据湖为基础进行数据分析需要多个组件进行集成部署,多个 组件的配合需要大量的开发工作 • 许多缺乏 ANSI SQL 支持,需要专门的技术技能 • 专用引擎/工具(例如图形数据库)通常难以与记录系统集成,限制 了分析和创新的操作化 NoSQL和数据湖为基础的基础设施需要的分析工具不容易集成和部署 Confidential • Segment节点并不持有持久化的数据,在扩张/收缩的过程中不涉及数据的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie Confidential • Master 节点和 FoundationDB 通过事务的方式协同实现了分布式的事务和锁 Confidential • 在 AP 场景下,像使用 postgres 一样使用 PieCloudDB • 只为已经发生的计算和存储付费 • 按需启动的关闭多个不同大小的集群,以适应不同类型的任务 • 取得性能和开发效率的高度平衡 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB 云原生架构 @2022 OpenPie.0 码力 | 43 页 | 1.14 MB | 1 年前3
共 17 条
- 1
- 2













