PieCloudDB Database 产品白皮书 数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖幸”整个集群的性能,导致查询速度变慢。 随卷时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数据瑰岛 随着业务的发展,数据量的增加 情况下,很多元数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运维成本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迁代迅速,相关人员需保持积极的知识更新意识。根关人才市场较小,人才芽乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 1999和部分SQL: 2003标准 (主要支 持其中的OLAP 特性) ,支持窗口函数等高阶表达式。此外, PieCloudDB 容 PostgreSQL 协议,支持标准数据库接 口 (0DBC、JDBC等) 。 对5QL的全面支持和多种过程语言 (Procedure Language) 的支持使得 PieCloudDB 可以无锋集成业内常见的提取/ 转换/加载 (ETL) 和 Bl (商业智能) 工具。企业只需0 码力 | 17 页 | 2.68 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书数据仓库架构存在“木桶效应”,集群整体执行速度取决于最“短板的”节点的性能。因此,一个节点的 表现往往会 “拖垮”整个集群的性能,导致查询速度变慢。 随着时间的推移,业务的增长,企业往往需要在1-2年后 对集群增加计算节点,此时,无论新的计算节点性能如何好,集群总体性能都会受制于老的节点。因此真实生产环境 中,常常见到客户在需要扩容时,采取重新新建集群的方式。 数 据 孤 岛 随着业务的发展, 数据 会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存 在。 运 维 成 本 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术 栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 2003标准(主要支 持其中的OLAP 特性),支持窗口函数等高阶表达式。此外, PieCloudDB 兼容 PostgreSQL 协议,支持标准数据库接 口(ODBC、JDBC 等)。 对SQL的全面支持和多种过程语言(Procedure Language)的支持使得 PieCloudDB 可以无缝集成业内常见的提取/ 转换/加载(ETL)和 BI(商业智能)工具。企业只需安排少量的集成工作,就可以使用现有的使用标准0 码力 | 17 页 | 2.02 MB | 1 年前3
πDataCS赋能工业软件创新与实践doop通用功能库、HDFS、 MapReduce以及YARN 。可视化管理是Ambari,其他的计算引擎、列存数据库 等都需要额外的组件,应对不同的场景需要安装对应的组件和依赖。 ⽣态丰富,对结构化数据、半结构化数据以及非结构化数据都支持,可以很好 的完成各种业务场景的数据处理需求。但是对于开发的要求比较⾼,需要掌握 多种组件的不同使用⽅法,业务开发周期会比较久。 国外开源软件,与国 Catalog 计算节点 JANM Table Format 管控节点 安全审计 API接⼝ ETL功能 数据洞察 运维管控 用户权限 NAS⽂件存储 HDFS分布式⽂件系统 S3对象存储 其他Data Lake Bare-Metal IaaS资源 执⾏器 执⾏器 执⾏器 协调器 协调器 虚拟数仓1 执⾏器 协调器 虚拟数仓2 执⾏器 … 连接管理 查询优化器 资源隔离 但是,经过处理⽆法识别特定个⼈且不能复原的除外。 • 《中国银⾏业“⼗⼆五”信息科技发展规则监管指导意见》中提出, 完善敏感信息存储与传输等⾼风险环节的控制措施,对数据、⽂ 档的访问应建立严格的审批机制,对用于测试的⽣产数据要进⾏ 脱敏处理,严格防⽌敏感信息泄露。 存 储 层 Table Log … 密⽂ 存储 ⼀级密钥 ⼆级密钥 三级密钥 数据 访问 PieDataCS 加密 模块0 码力 | 36 页 | 4.25 MB | 1 年前3
PieCloudDB 的云原生之路例如:投资管理系统和财务管理系统可以各自管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使用时间和规模计算成本,而不是购买大量服务器静置为不确定 的使用额外支付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从而建立竞争壁垒。 1 2 3 产 品 理 念 最 终 实 现 大 数 据 愿 景 Big Data 服务器整合,降低服务器硬件成本 云计算平台统一运维降低成本 服务器资源池可用空间增大 数据资源池可用空间增大 虚拟机动态迁移对硬件无感知 数仓整合,降低服务器硬件或者虚拟机成本 数据计算平台统一 运维降低成本 虚拟数仓数仓高在线 虚拟数仓动态 spinoff/retire 对计算资源无感知 虚拟机高在线 服 务 器 虚 拟 化 数 仓 虚 拟 化 IvorySQL开源数据库社区 事务 • ACID 支持两种隔离级别:读已提交、可重复读 • 扩展性 事务管理器无单点性能瓶颈 • 隔离性 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 03 用户数据存储 IvorySQL开源数据库社区 构建新一代云原生存储引擎 • Multi-Could 云上设施 o 对象存储0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路例如:投资管理系统和财务管理系统可以各⾃管理,按需分享。 计算:云上计算资源可以弹性分配。有查询计算任务的时候按需启动, 按照使⽤时间和规模计算成本,⽽不是购买⼤量服务器静置为不确定 的使⽤额外⽀付成本。 发现:在云上,对计算模型以更低成本提供指数级的存储和计算资源, 帮助甲方的业务模型发现新洞察或者提高精准度,从⽽建⽴竞争壁垒。 1 2 3 产 品 理 念 最 终 实 现 大 数 据 愿 景 Big Data 服务器整合,降低服务器硬件成本 云计算平台统⼀运维降低成本 服务器资源池可⽤空间增⼤ 数据资源池可⽤空间增⼤ 虚拟机动态迁移对硬件⽆感知 数仓整合,降低服务器硬件或者虚拟机成本 数据计算平台统⼀ 运维降低成本 虚拟数仓数仓⾼在线 虚拟数仓动态spinoff/retire对计算资源⽆感知 虚拟机⾼在线 服 务 器 虚 拟 化 数 仓 虚 拟 化 @2022 OpenPie ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n0 码力 | 44 页 | 1.64 MB | 1 年前3
大模型时代下向量数据库的设计与应用• 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文 Query LLM Response 检索增强生成(RAG) • 将辅助增强数据通过embedding过程转换为向量,加载到向量数据库中并做索引 • 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 P8 (filtered) P9 P10 (filtered) P2 (filtered) 向量数据库 • 存储向量和原始实体(文字/图像/语音)及元信息,并将它们关联起来 • 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法0 码力 | 28 页 | 1.69 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库rights reserved. OpenPie Confidential Postgres 生态 PieCloudDB 重新打造 PostgreSQL 12.x 实现存算分离 PieCloudDB 对几乎所有内核模块做了大量的创新 PieCloudDB 内核团队拥有强悍的Postgres内核代码掌控能力 • 将来会保持和Postgres内核大版本对齐 团队也拥有丰富的Postgres内核大版本升级合并经验 ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t a C o m p u t i n OpenPie. All rights reserved. OpenPie Confidential • 透明加密技术 • 加密用户数据,避免被未经许可人员读出 • 用户无感知,不影响用户的业务,对性能影响小 • 合规 • 符合数据安全审计要求 • 符合业务安全审计要求 安全性增强 @2022 OpenPie. All rights reserved. OpenPie Confidential0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB Database V2.8 Release NoteNone、PGLZ 或者 ZSTD。使用 ZSTD 压缩方法可以大幅度提高数据文件压缩率,降低数据文件存储成本。 n 支持预聚集块扫描节点,对 JAMN 文件块中的数据进行预聚集计算。 n 增强 JANM Data Skipping 对 IN 条件的处理能力。 n 新增 GUC 参数 pdb_enable_janm_toast,控制 JANM 访问方法中的 Toast。0 码力 | 4 页 | 144.49 KB | 1 年前3
PieCloudDB Database V2.1 版本说明读取的文件给各个执行节点,降低查询的启动代价。 • 原生格式存储:在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持:PieCloudDB 支持查询优化器 Orca。Orca 是一款开源的、基 于 Cascades 模型的模块化查询优化器,帮助用户对 SQL 进行优化,生成高效的查询计 划。 • 支持超大数据量字段 • 支持快速 ETL/ELT:0 码力 | 3 页 | 257.15 KB | 1 年前3
AGI 趋势下的云原生数据计算系统中国AGI市场融资非常活跃, AGI顶级人才非常欠缺,整 个市场将长期保持快速增 长态势。 01 AIGC全生命周期管理 基于PieCloudML,为企业构 建统一的MaaS框架和AIGC开 发框架,对模型和AI Agent进 行高效管理。 03 案例分享 基于PieDataCS的用户案例实 践,从基础的数据底座到 AIGC应用全场景覆盖。 04 中国AGI发展趋势 中国AGI市场 结构化和半结构化数据同步 云原生数据计算系统 向量计算引擎设计 云原生数据计算系统 多模态数据共享 AIGC全生命周期管理 基于PieCloudML,为企业构建统一的MaaS框架和 AIGC开发框架,对模型和AI Agent进行高效管理。 03 AIGC全生命周期管理 PieCloudML引擎设计 AIGC全生命周期管理 MaaS底座主流架构 AIGC全生命周期管理 AIGC应用组织 AIGC全生命周期管理0 码力 | 26 页 | 2.84 MB | 1 年前3
共 15 条
- 1
- 2













