集群扩展 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB Database 社区版集群安装部署手册 V2.1

PieCloudDB Database 社区版集群部署和使用手册版本：V2.1 2023 年 03 月 08 日目录 1. 集群规划 .......................................................................................................... ................................................................................. 10 2.9 安装 K8S 集群 .................................................................................................. ......................................................................................... 28 4. 集群部署和使用 .............................................................................................

0 码力 | 42 页 | 1.58 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

拓数派⼤模型数据计算系统正式亮相，让AI模型更⼤更快 @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS的产品理念及定位数据计算模型灵活扩展的数据引擎，支持关系型数据库SQL、Spark/Flink 等流批⼀体处理、LLM的向量数据库以及GIS地理数据库等。 1 2 3 ⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数资源的弹性能⼒。组件太多，导致集群部署和后期运维管理很麻烦，市场上相关⼈才储备量不多，技术兜底依赖于Cloudera，国内第三⽅公司主要是基础运维和开发为主。⼤模型数据计算系统，以云原⽣技术重构数据存储和计算，⼀份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓⼀体化的能⼒，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少⽽精（All 算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执⾏任务。企业可灵活进⾏扩缩容，随着负载的变化实现⾼效的伸缩，轻松应对 PB级海量数据。全新的存储「简墨」和缓存架构设计在计算层，各个计算节点针对元数据和用户数据都设计了多层缓

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database 产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型分布式数据库系统大多是 MPP (大规模并行计算) 架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录 MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1 录。数据计算时，所有机器同时并行计算，理论上最把计算时间降低到单机部署的 1/n (n为机器数量) MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖幸”整个集群的性能，导致查询速度变慢。随卷时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计算节点性能如何好，集群总体性能都会受制于老的节点。因此真实生产环境中，常常见到客户在需要扩容时，采取重新新建集群的方式。数据瑰岛随着业务的发展随着业务的发展，数据量的增加，和信息化建设的需求，企业会为不同部门建设相应的业务信息化系统。我们在真实客户场景中，常常看到很多企业有成百上千个集群，但这些集群的元数据往往都是一样的。这种情况下，很多元数据会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统 MPP 数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

传统数仓的痛点很多受欢迎的数据库仓库均为分布式数据库，而典型的传统分布式数据库系统大多是 MPP（大规模并行计算）架构。 MPP 架构的数据库以 PC 服务器为单位，通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有3亿条记录， MPP 数据库会尝试在每台 PC 服务器的硬盘上分布1亿条记录。数据计算时，所有机器同时并行计算，理论上最高可以把计算时间降低到单机部署的 1/n（n为机器数量），节省了海量数据的处理时间。 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖垮”整个集群的性能，导致查询速度变慢。随着时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计算节点性能如何好，集群总体性能都会受制于老的节点。因此真实生产环境中，常常见到客户在需要扩容时，采取重新新建集群的方式。数据孤岛随随着业务的发展，数据量的增加，和信息化建设的需求，企业会为不同部门建设相应的业务信息化系统。我们在真实客户场景中，常常看到很多企业有成百上千个集群，但这些集群的元数据往往都是一样的。这种情况下，很多元数据会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统 MPP 数仓，企业往往会需要配备运维人力，且对运维、

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

云原生分布式SQL数据库一个云原生实时大数据平台基座愿景：安全可靠使用简单功能齐全性能极致传统分布式MPP架构痛点缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩缩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 我们需要一个云原生数据库云解决了什么？借助于云上分布式存储，解耦存储借助于虚拟化技术和之上的IaaS，解耦计算弹性计算资源（横向纵向）、极速调整 • 多集群是另外一个弹性的维度 • 共享用户数据（如按需付费的对象存储） • 共享元数据 • MPP架构：分布式，海量数据并行处理 • e代表弹性(elastic) 完善的Postgres生态为什么选择Postgres？ • 关于Postgres • 公司中⽴，开源协议友好，国际⼀流⼯程⽔准的先进开源数据库 • Postgres对存储扩展，插件扩展⽀持友好 • 天然⾃带⼀定的多模⽀持⾏化事务、watcher机制 • 多个集群（虚拟数仓）可以共享⼀份元数据 • FoundationDB⾼可⽤设计、备份恢复保证元数据的可靠性和可⽤性元数据管理缓存 • ⺫的： • 减轻FoundationDB集群负担 • 加速查询优化（⺴络延迟远⾼于内存延迟） • 以Postgres原⽣的元数据缓存概念为基础，优化重构实现适⽤于多集群架构⽤户数据存储引擎 • PAX（⾏列混存）配以⾼效压缩

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB 的云原生之路

• 产品要能快速进行计算资源的弹性伸缩 IvorySQL开源数据库社区我们需要一个云原生大数据平台缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 传统分布式 MPP 架构痛点 IvorySQL开源数据库社区 PART 02 云原生数据库 PieCloudDB 最终实现大数据愿景 Big Data Promises Finally Come True IvorySQL开源数据库社区 • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难（后期升级部署困难） • 木桶效应 • 大量数据孤岛问题计算层存储层 MPP: Massive Parallel Processing eMPP : elastic 计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP 分布式专利技术在云上，PieCloudDB 利用 eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进行扩缩容，随着负载的变化实现高效的伸缩，轻松应对 PB 级海量数据。全新的存储「简墨」和缓存架构设计在计算层，各个计算节点针对元数据和用户数据都设计了多

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential Finally Come True @2022 OpenPie. All rights reserved. OpenPie Confidential • 秒级扩缩容 • 多集群共享一份数据集 • 用户只需为存储和计算付费 • 扩展困难（后期升级部署困难） • 木桶效应 • 大量数据孤岛问题计算层存储层 MPP: Massive Parallel Processing eMPP : elastic 算任务的时候按需启动，按照使⽤时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利⽤eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进⾏扩缩容，随着负载的变化实现⾼效的伸缩，轻松应对 PB级海量数据。全新的存储「简墨」和缓存架构设计在计算层，各个计算节点针对元数据和用户数据都设计了多层缓

0 码力 | 44 页 | 1.64 MB | 1 年前
3
PieCloudDB：基于PostgreSQL的eMPP云原生数据库

All rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential 元数据管理的设计目标实现多节点共同访问的数据存储实现分布式锁 • 高可用和多集群 • Multi-master • 多机并发访问 • 分布式环境下的多版本 @2022 OpenPie. All rights reserved. OpenPie Confidential All rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩：集群大小、集群类型、集群数量 • 隔离性：不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie

0 码力 | 45 页 | 1.32 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

各模块可以独立伸缩，模块间接口统一每一组计算节点组成一个集群，多集群共享元数据和存储系统计算节点高度并行 05 兼容 PostgreSQL 生态 PieCloudDB eMPP 分布式架构导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式流式传输 ETL本质是不同系统（数据组织形式）之间的数据移动 ETL • 便宜可扩展的对象存储，各系统通用 • 模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta

0 码力 | 29 页 | 5.24 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

源的弹性能力。组件太多，导致集群部署和后期运维管理很麻烦，市场上相关人才储备量不多，技术兜底依赖于Cloudera，国内第三方公司主要是基础运维和开发为主。大模型数据计算系统，以云原生技术重构数据存储和计算，一份数据，多引擎数据计算。主要解决海量数据的存储和实时计算问题，具备湖仓一体化的能力，用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少而精（All 任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进行扩缩容，随着负载的变化实现高效的伸缩，轻松应对PB级海量数据。全新的存储「简墨」和缓存架构设计在计算层，各个计算节点针对元数据和用户数据都设计了多层缓具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 • 有限的工具集成 • 较差的数据完整性和可用性打破专用向量数据库的局限性 • 统一的数据平台，在动态扩缩容过程中无需移动数据，充分保障数据的一致性 • 使用简单，学习成本低，无需额外投入

0 码力 | 29 页 | 7.46 MB | 1 年前
3

共 15 条前往

页

分类

语言

格式

PieCloudDB Database 社区版集群安装部署手册 V2.1

πDataCS赋能工业软件创新与实践

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

云原生数据库 PieCloudDB eMPP架构设计与实现

PieCloudDB 的云原生之路

PieCloudDB云原生数仓虚拟化之路

PieCloudDB：基于PostgreSQL的eMPP云原生数据库

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

兼容龙蜥的云原生大模型数据计算系统：πDataCS