任务调度 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

PieCloudDB Database 产品白皮书

字企业的典型使用场景 * 每天有数个小的计算任务，需要数个节点 * 每周有一个中等计算任务，需要数十个节点 * 每月有一个大的计算任务，需要数干个节点面对这些不断变化的业务需求和计算任务，企业产生了更高的需求: * 无限空间: 能够提供无限存储空间，。灵活伸编: 随时根据业务需求弹性增加集群和工作节点 * 资源回收: 在集群完成计算任务时，可以进行资源回收，节省成本充分结合云计算、大规模并行处理技术的云原生虚拟数仓来满足其业务需求。，。高可用能力 pieCloudDB 实现了元数据、计算、存储等三层架构，计算节点不存储用户数据，是无状态的。当计算节点发生故障时，PieCloudDB 会自动快速发现并调度新的节点蔡代故障节点，同时也会在后台尝试修复故障节点，从而保证 PieCloudDB 服务的高可用性。 pieCloudDB 的存鱼引擎，支持对象存储、HDF5、NAS等分布式存储，数据的完整性、一致性和可靠性等由分布式存 PieCloudDB 采用高效并行的方式进行数据加载和处理，处理速度随节点增加而提升，支持流数据快速加载。 PieCloudDB 的eMPP (弹性大规模并行计算) 架构让数据计算可以自动化弹性伸缩，用户可以根据计算任务灵活的分配最优数量的节点执行查询。同时PieCloudDB的多集群能力可轻松面对高并发场景，企业可以根据业务的并发需求动态扩展 PieCloudDB 集群，满足业务应用的并发需求。 Openpie

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

每天有数个小的计算任务，需要数个节点每周有一个中等计算任务，需要数十个节点每月有一个大的计算任务，需要数千个节点无限空间：灵活伸缩：资源回收：这些优势使云原生数据库得以降低计算成本，提供无限丰富的计算资源，实现分钟级的伸缩性和真正的高可用，释放出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景：面对这些不断变化的业务需求和计算任务，企业产生了更高的需求：应运而生， PieCloudDB 帮助企业摆脱了 PC 架构的限制，满足云原生数字时代需求，成为更好的选择。能够提供无限存储空间，随时根据业务需求弹性增加集群和工作节点在集群完成计算任务时，可以进行资源回收，节省成本 6 PieCloudDB 云原生虚拟数仓杭州拓数派科技发展有限公司（又称“OpenPie”）认为计算技术目前经历了三代平台: ①大型机时代；②PC机时代；和集群中计算节点的数量和虚拟数仓的数量，用最适合的资源量来满足其业务需求。 PieCloudDB 实现了元数据、计算、存储等三层架构，计算节点不存储用户数据，是无状态的。当计算节点发生故障时，PieCloudDB 会自动快速发现并调度新的节点替代故障节点，同时也会在后台尝试修复故障节点，从而保证 PieCloudDB 服务的高可用性。 PieCloudDB 的存储引擎，支持对象存储、HDFS、NAS等分布式存储，数据的完整性、一致性和可靠性等由分布式存

0 码力 | 17 页 | 2.02 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 pdbconduct • 独立运行，通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息 Ø 计算节点上根据任务信息读取数据源，返回raw数据和元信息 CREATE FOREIGN TABLE foreign_table(meta text, raw bytea); SELECT meta,

0 码力 | 29 页 | 5.24 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

用户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少⽽精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。⽣态完善，支持主流的开发语⾔和数据科学⼯具，支持多模数据处理（结构化、半结构化以及非结构化），提供标准的SQL接⼝和API，完成各种复杂场景的数据处理，业务开发周期短，现存的代码基本可以⽆缝迁移和复用。运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执⾏任务。企业可灵活进⾏扩缩容，随着负载的变化实现⾼效的伸缩，轻松应对 PB级海量数据。池上创建虚拟数仓； 2. 虚拟数仓是由执⾏器和协调器等资源组成，协调器和执⾏器在操作系统层面来看，他们就是⼀个个的进程，这些进程分布在不同的计算节点上； 3. 如图中示例，业务应用的计算任务数量增加或需要处理的数据量变⼤，对应的计算资源（主要是CPU、MEM）也会增加，根据计算资源需求，虚拟数仓可以在线弹性的扩缩容，在此图示例中，执⾏器可以从原来的3 个变成4个，缩容也是同样的原理；

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云时代下多数据计算引擎的设计与实现

reserved. OpenPie Confidential 多计算引擎内置计算引擎 Postgres执行器全新的向量化执行引擎向量数据库单机和分布式 Spark 客户依赖跑批任务机器学习 …… ... 按需增加 @2024 OpenPie. All rights reserved. OpenPie Confidential 产品子功能太多分支？ • 抽象的⽂件协议接⼝ materialization • Pipeline Engine、etc • 和JANM结合有大量可能的性能创新点. • 长远目标： • 赋能其他产品. • 赋能更多的计算形态. • 云上计算调度. @2024 OpenPie. All rights reserved. OpenPie Confidential 计算外延 • 仓湖一体：仓衍生支持开源表格式 • 先读，Iceberg on

0 码力 | 15 页 | 3.09 MB | 1 年前
3
PieCloudDB：云原生分布式虚拟数仓的诞生之旅

OpenPie Confidential PieCloudDB内核的下⼀步 • ⽤⼾数据存储 • 依赖计算需求优先级提供更多功能（dict page? Bloom filter?等等). • 分布式缓存和调度. • 等等. @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB内核的下⼀步 • 优化器 • 功能更全、OLAP更友好、更加贴近云原⽣需求功能更全、OLAP更友好、更加贴近云原⽣需求. • 计算引擎 • V1（正在开发中）: SIMD执⾏器和各种计算优化. 甚⾄依赖于云成本. • V2: Pipeline引擎. • V3: 计算引擎资源调度隔离 - 类似⼀个计算操作系统.

0 码力 | 24 页 | 2.01 MB | 1 年前
3
PieCloudDB Database V2.8 Release Note

n 支持获取 Kafka FDW 统计数据。 n Kafka FDW 支持 JSON 格式。 l 执行计划信息支持在 EXPLAIN ANALYZE VERBOSE 执行结果中显示调度相关状态信息。 4 l 用户定义函数 UDF n 新增 janm_page_size_read，用以获取 Page 大小。 n 新增 janm_block_file_size_read，用以获取

0 码力 | 4 页 | 144.49 KB | 1 年前
3
PieCloudDB 的云原生之路

计算发现数据：云上数据既是隔离也是连通。从安全的角度是隔离，同时具备数据共享的能力。例如：投资管理系统和财务管理系统可以各自管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使用时间和规模计算成本，而不是购买大量服务器静置为不确定的使用额外支付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从而建立竞争壁垒。运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP 分布式专利技术在云上，PieCloudDB 利用 eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进行扩缩容，随着负载的变化实现高效的伸缩，轻松应对 PB 级海量数据。 FoundationDB 使用 FoundationDB Key 的自然排序实现索引 IvorySQL开源数据库社区 02 分布式引擎 IvorySQL开源数据库社区计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩：集群大小、集群类型、集群数量 • 隔离性：不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

计算发现数据：云上数据既是隔离也是连通。从安全的⾓度是隔离，同时具备数据共享的能⼒。例如：投资管理系统和财务管理系统可以各⾃管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本，⽽不是购买⼤量服务器静置为不确定的使⽤额外⽀付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从⽽建⽴竞争壁垒。运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独⽴管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利⽤eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进⾏扩缩容，随着负载的变化实现⾼效的伸缩，轻松应对 PB级海量数据。只为新发现 02 分布式引擎 @2022 OpenPie. All rights reserved. OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩：集群大小、集群类型、集群数量 • 隔离性：不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie

0 码力 | 44 页 | 1.64 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

户可根据实际情况去选择合适的数据计算引擎。灵活可扩展的插件式引擎，组件少而精（All in One），提供3种计算引擎、1种 Lakehouse引擎，1个硬件加速器，应对各种场景的计算，同时也兼容Spark、 Flink等计算任务，保留用户的使用习惯。生态完善，支持主流的开发语言和数据科学工具，支持多模数据处理（结构化、半结构化以及非结构化），提供标准的SQL接口和API，完成各种复杂场景的数据处理，业务开发周期短，现存的代码基本可以无缝迁移和复用。运用元数据-计算-数据分离的三层架构，实现云上存储资源与计算资源的独立管理。云上计算资源可弹性分配，有查询计算任务的时候按需启动，按照使用时间和规模计算成本。 eMPP分布式专利技术在云上，PieCloudDB利用eMPP（elastic Massive Parallel Processing）架构，实现多集群并发执行任务。企业可灵活进行扩缩容，随着负载的变化实现高效的伸缩，轻松应对PB级海量数据。

0 码力 | 29 页 | 7.46 MB | 1 年前
3

共 13 条前往

页

分类

语言

格式