πDataCS赋能工业软件创新与实践
的问题, 是⼤数据技术中的基⽯。让用户可以在不了解分布式底层细节的情况下,开发 分布式程序,以⼀种可靠、⾼效、可伸缩的⽅式进⾏数据处理。 组件很多,常见约30个,基础组件包括:Hadoop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 ⽣态丰富,对结构化数据、半 OpenPie Confidential PieCloudDB--虚拟数仓引擎 Mundo Catalog 计算节点 JANM Table Format 管控节点 安全审计 API接⼝ ETL功能 数据洞察 运维管控 用户权限 NAS⽂件存储 HDFS分布式⽂件系统 S3对象存储 其他Data Lake Bare-Metal IaaS资源 执⾏器 执⾏器 执⾏器 协调器 协调器 Ø HTAP,弹性扩缩容 Ø eMPP专利,弹性⼤规模并⾏计算 Ø 分布式优化器 Ø 存算分离架构 可视化管控: Ø 监控告警 Ø 自定义和动态服务启停 Ø 备份恢复 Ø ETL和数据导出 Ø 数据洞察 Ø 细粒度权限管控,与LDAP⽆缝集成 Ø Rest API @2024 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 36 页 | 4.25 MB | 1 年前3云原生虚拟数仓 PieCloudDB ETL 方案设计与实现
各模块可以独立伸缩,模块间接口统一 每一组计算节点组成一个集群,多集群共享 元数据和存储系统 计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 pdbconduct • 独立运行,通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出 • 发送 SQL 语句到 PieCloudDB 控制节点 • 收集执行结果,记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式,支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流0 码力 | 29 页 | 5.24 MB | 1 年前3云原生数据库 PieCloudDB : Unbreakable 安全特性剖析
• 优化器、执行器不感知 • 模块完美支持自研存储 • 可插拔加密算法库 • 支持不同硬件加密算法 • 支持国密算法 • 不影响用户业务 • 原有业务无需变化 • 不影响ETL数据导入导出 透明加密组件架构 用户查询 优化器 执行器 存储接口 数据 透明加密组件架构 用户请求 优化器 执行器 存储接口 透明加密组件 数据 函数接口 密钥管理 模块 加密模块 加密算法库0 码力 | 34 页 | 599.00 KB | 1 年前3PieCloudDB Database 产品白皮书
PieCloudDB,运用全新 eMPP (elastic Massive Parallel Processing) 分布式技术,旨在为企业提供包含实时处理、 移级扩缩容、弹性计算、集成数据分析等强大功能的云上数据存储和计算引擎,助力企业实现数据价值最大化。 pieCloudDB 为企业构建坚如般石的虚拟数仓,以云资源最优化配置实现无限数据计算可能,基于新一代数仓虚拟 化,提供云数仓智能化解决方案 用以 及用户权限等功能; 2. 计算节点: 无状态节点 (包括 Coordinator 和 Executer) ,主要负责接收用户请求和数据计算,支持 动态弹性伸缩,提供数据查询 、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离 等功能; 3. 存储节点; 存算分离架构,支持本地存储和云存储,推荐采用对象存储,提供数据压缩、数据加密、 多模存储以及多级缓存等功能; 4. 云原生平台节点: 集群管控节点,提供数据洞察和集群运维等功能,支持可视化的数据 分析、性能监控、集群启停、自动化部署以及权限管控等能力; 用户或者应用可直接调用 PieCloudDB 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 Ap| 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 Openl SN0 码力 | 17 页 | 2.68 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
提供元数据服务,如元数据存储共享、分布式锁、多版本管理、多集群并发、高可用以 及用户权限等功能; 2. 计算节点: 无状态节点(包括 Coordinator 和 Executer),主要负责接收用户请求和数据计算,支持 动态弹性伸缩,提供数据查询、执行计划、查询优化、数据加载、连接管理、并行计算以及资源隔离 等功能; 3. 存储节点: 存算分离架构,支持本地存储和云存储,推荐采用对象存储,提供数据压缩、数据加密、 多模存储以及多级缓存等功能; 4. 云原生管控平台节点: PieCloudDB 集群管控节点,提供数据洞察和集群运维等功能,支持可视化的 数据分析、性能监控、集群启停、自动化部署以及权限管控等能力; 数据应用层: 用户或者应用可直接调用 云原生虚拟数仓服务进行数据分析,提供标准的 SQL 接口,且内置各种分析工 具,并原生兼容 Postgres 生态,可以很好地处理地理信息数据和文本,未来会扩展其他 API 接口,支持常见的数仓的 数据分析和人工智能、数据科学等功能。 PieCloudDB 产品概述 拓数派旗下旗舰产品PieCloudDB,是以对行业顶级数据库的抽象思考和设计原则复用为技术路线,可将物理数仓整合 到云原生数据计算平台,根据数据授权动态创0 码力 | 17 页 | 2.02 MB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
• 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 公司中⽴,开源协议友好,国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展,插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持 (原⽣或者插件) • 采⽤度和流⾏度持续上升 • 优秀的⽣态 • 我们的选择 • 很多功能不⽤也没必要重新造轮⼦ • 和⼀流的产品和⼈才⼀起成⻓ • 团队深度理解Postgres内核代码,在社区参与诸多贡献 PieCloudDB 架构 元数据管理 基于 MVCC 的事务隔离级别 使用 ⽤户数据查询效率优化 • 远程访问数据要考虑的点:性能和成本 • 如何解决? • 数据和/或辅助信息缓存,同时⼀致性Hash减少数据移动 • 读取优化(⽐如异步并⾏等) • 计算优化(各种功能特性持续优化中) • 很多复杂OLAP查询如果不是IO瓶颈,不会受制于它 • …... 计算引擎之优化器 PieCloudDB Optimizer 是⼀个基于eMPP架构的云原⽣分布式优化器,它0 码力 | 31 页 | 1.43 MB | 1 年前3PieCloudDB:云原生分布式虚拟数仓的诞生之旅
24发布1.0版本,技术和产品上实现了云原⽣. • 计算和存储分离:弹性计算 & 弹性存储. • 计算和存储都:按需付费. • 多租⼾隔离. • 2023年3.14上公有云(阿⾥云). • 更多功能增强 @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • 为什么我们觉得数据库云原⽣很重要? OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠 使⽤简单 功能⻬全 性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 @2022 OpenPie. All rights reserved. OpenPie Confidential 元数据系统持续的性能优化 • ... @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 (cont.) • 功能变强或者补全 • 海量数据修改增强. • 初步备份功能. • Vacuum增强. • 统计数据⾃动收集更新. • Spill to S3⽀持 • 临时表完全⽀持. • 各种异常处理增强. • …... • 稳定性. @20220 码力 | 24 页 | 2.01 MB | 1 年前3PieCloudDB Database 社区版集群安装部署手册 V2.1
界面。这里需要注意的是,PieCloudDB 社区版默认不开 启激活认证功能,使用社区版可以跳过邮件验证步骤。 b. 点击 再次回到登录界面,输入邮箱和密码,点击 ,跳转进入 PieCloudDB 初始界面。 4.2 浏览界面 1. 在 PieCloudDB 初始界面,可以查看右上角的登录信息,也可以切换中英文模式。右上角的 按钮下包含多项用户相关的功能,左侧的菜单栏则展示了各大使用模块。 例如,用户“汤姆”登录后,右上角会显示 piebar的tom。 2. 点击 按钮, 可以看到第一项功能 ,如果需要点击它跳转至“修改用户密码” 界面,输入原密码和新密码后点击 即可。 3. 按钮下的第二项功能是在主账户下添加新用户,点击 ,会跳出一 个邀请注册的链接,只需要将此链接发送给想要添加的用户即可。得到该链接的用户需要输入用 com”、密码 “54321Jerry!” 注册并激活了一个新用户。接下来,需 要主账户用户 “tom” 进行审核,审核通过后用户“jerry” 就可以正常登录了。 4. 对于 按钮下的第三项功能 ,会在“第三步:创建集群和数据库”中详细解释, 这里只需知晓,是可以通过 JDBC 或 ODBC 等方式从外部接入 PieCloudDB 服务的。 5. 在左侧的菜单栏,点击 进入用户列0 码力 | 42 页 | 1.58 MB | 1 年前3云时代下多数据计算引擎的设计与实现
机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能 太多分支? • 抽象的⽂件协议接⼝ • 抽象的⽂件格式接⼝ • 抽象的计算功能接⼝(e.g. data skipping) • 抽象的元数据存储接⼝ • …… 抽象和灵活的考虑贯穿所有的设计. Apache Arrow作为不少组件内存中间桥梁 @2024 OpenPie. All rights reserved. OpenPie Confidential Postgres 执行计算引擎 向量化执行引擎 FALLBACK 用(新引 擎功能暂不支持或者短期故障逃逸) 行处理,将来 HTAP 的 OLTP 用. @2024 OpenPie. All rights reserved. OpenPie Confidential 向量化0 码力 | 15 页 | 3.09 MB | 1 年前3PieCloudDB Database V2.8 Release Note
1 Release Note 最新版本: V2.8 发布日期: 2023 年 10 月 内 核 l 回收站功能 实现回收站来跟踪逻辑上被删除(TRUNCATE/DROP/ALTER 等)的表,这些 表对应的 S3 Block 文件在超过保留期限后会被 autovacuum 删除。 l PieCloudDB 全局缓存系统 n 支持在计 外表接口,支持在协调节点和工作节点上执行,以原始字 节(bytea)读取文件。 n 为外表启用部分聚合能力,支持并行聚集下推。 n 新增 fdb_max_retry(替代原 MaxRetry 功能),默认值设置为 50。 l 临时表相关 n 新增 GUC 参数 pdb_temptable_local_limit_filesize 和 pdb_temptable_local_lim0 码力 | 4 页 | 144.49 KB | 1 年前3
共 14 条
- 1
- 2