稳定性与性能建议 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

云原生数据库PieCloudDB 性能优化之路

郭峰拓数派云原生数据库PieCloudDB 性能优化之路打造立足于国内基础数据计算领域的世界级高科技创新驱动机构杭州拓数派科技发展有限公司（又称“OpenPie”），以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命，成立后的短短10个月时间内，完成了包括头部产业基金、东吴证券、元禾重元和政府科创平台在内的连续三轮战略融资。 • 利用Motion产生分布式的查询计划 • 这些分布式的查询计划会被分为更小的单元，并被分发到不同的工作节点中并行执行 • 对于聚集操作，利用分布式的优势，在工作节点之间通过多阶段聚集来提升性能 # explain (costs off) select sum(b) from t group by a; QUERY PLAN -----------------------------

0 码力 | 26 页 | 711.44 KB | 1 年前
3
πDataCS赋能工业软件创新与实践

reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS 赋能⼯业软件创新与实践吴疆拓数派产品社区总监 CONTENTS @2024 OpenPie. All rights reserved. OpenPie Confidential 杭州拓数派科技发展有限公司使命：数据计算，只为新发现愿景：成为立⾜中国基础数据计算领域的全球顶级⾼科技创新机构价值观：以⼈为本、开放创新、拥抱变化、诚信正直拓数派中国总部与全球分支机构海外研发中⼼北京研发中⼼杭州总部上海全球品牌战略与⽣态发展中⼼⼴州研发中⼼ @2024 OpenPie. All rights reserved. OpenPie Confidential 国际顶级创始团队 2021 2022 当天即获得头部产业基⾦天使轮投资成为Day-1准独角兽 7月与中国⼈民⼤学成立实习基地，打造中国的云原⽣数据库世界级智⼒⾼地 11月 4月获得元⽲重元和东吴证券Pre-A轮投资标志着企业进⼊快速成长期拓数派正式成立成立杭州总部、北京研发中⼼、上海全球品牌战略与⽣态发展中⼼蓬勃发展的拓数派驱动数据计算时代的到来 9月成立加拿⼤研发中⼼

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云时代下多数据计算引擎的设计与实现

reserved. OpenPie Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential 云时代下多数据计算引擎的设计与实现郭罡 CTO 拓数派（OpenPie） @2024 OpenPie. All rights reserved. OpenPie Confidential 关于拓数派 • 成立于2021年，以“Data Confidential @2024 OpenPie. All rights reserved. OpenPie Confidential janm 格式行列混存（PAX）为极致的数据计算而设计和优化解析性能极致 (vs Parquet, etc) @2024 OpenPie. All rights reserved. OpenPie Confidential JANM：大数据计算系统云存储底座 • low-cardinality string aggregation • late materialization • Pipeline Engine、etc • 和JANM结合有大量可能的性能创新点. • 长远目标： • 赋能其他产品. • 赋能更多的计算形态. • 云上计算调度. @2024 OpenPie. All rights reserved. OpenPie Confidential

0 码力 | 15 页 | 3.09 MB | 1 年前
3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

ETL方案设计与实现邱培峰拓数派技术专家云原生虚拟数仓PieCloudDB 大连理工大学软件工程本科 pgsql@qiupf.dev 邱培峰拓数派技术专家 ETL解决方案及内核组件研发 PieCloudDB 分布式架构简介 ETL 简述 PieCloudDB ETL方案设计 Postgres -> PieCloudDB 增量数据实时 cdc 演示 01 02 03 等格式的文件 • 为不同类型的查询特化的系统会有不同的存储方式 • 同一份底层原始数据使用不同系统查询会产生 ETL 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控按需启动数据源(插件)导出 • 发送 SQL 语句到 PieCloudDB 控制节点 • 收集执行结果，记录进度和错误信息 • INSERT/MERGE 模式 • INSERT 模式，支持单纯导入场景 • 与现有数据没有逻辑关联的时序数据流 • INSERT 模式，步骤1 Ø PieCloudDB Foreign Table，postgres扩展，需要为数据源单独开发 Ø 控制节点上读取数据源信息，决定是否拆分，生成任务信息

0 码力 | 29 页 | 5.24 MB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

pyH� un lytlcD r.p ur re 。 Rock.s 2014 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现郭罡拓数派CTO 关于拓数派（OpenPie） • 成⽴于2021年，以“Data Computing for New Discoveries”「数据计算，只为新发现」为使命。 • • 代码级/算法级/系统级性能优化 • Linux/Unix内核和系统开发、虚拟化（芯⽚KVM⽀持实现）和云计算架构、⾼速⺴络开发（内核和应⽤层如DPDK） • 分布式系统（SQL/NoSQL/存储) • 最近 7+ 年⼀直从事开源分布式数据库开发一个eMPP 云原生分布式SQL数据库一个云原生实时大数据平台基座愿景：安全可靠使用简单功能齐全性能极致传统分布式MPP架构痛点 (TDE) • 分布式对象存储多副本多可⽤区保证数据安全：“⼀份”数据，避免数据不⼀致 • 将来Time Travel查询“回收站”数据⽤户数据查询效率优化 • 远程访问数据要考虑的点：性能和成本 • 如何解决？ • 数据和/或辅助信息缓存，同时⼀致性Hash减少数据移动 • 读取优化（⽐如异步并⾏等） • 计算优化（各种功能特性持续优化中） • 很多复杂OLAP查询如果不是IO瓶颈，不会受制于它

0 码力 | 31 页 | 1.43 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

大模型时代下向量数据库的设计与应用个人简介目前在拓数派负责向量数据库PieCloudVector产品，聚焦于大模型与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验，在加入拓数派前曾就职于开源大数据平台Greenplum团队，担任外部数据源访问框架，对象存储访问扩展，ETL工具等产品模块的研发，并曾参与PostgreSQL多个版本的代码贡献，拥有丰富的存储模块核心开发和性能优化等实践经验。国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期，不包含最新信息，无法准确回答相关信息搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出向量数据库 • embedding通过大模型将各种形式的数据转换成向量向量数据库 • 两个向量可以计算它们的距离（欧式，余弦/内积，曼哈顿等），距离越近，表示这两个物体越相似 • 向量搜索的基本问题：K-Nearest Neighbor • 在已有的N个向量中找出与给定向量距离最近的K个向量 Query

0 码力 | 28 页 | 1.69 MB | 1 年前
3
PieCloudDB Database 产品白皮书

油”，如同石油驱动了工业化时代的进步，大数据将推动智能化与数字化时代的发展。 Annual Size of the Global Datasphere zetabytes 击需视各2nk 2n 2n6 201 2018 20192070 20717022 2973 2024 2025 1DC:全球数据圈预测数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖幸”整个集群的性能，导致查询速度变慢。随卷时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计算节点性能如何好，集群总体性能都会受制于老的节点。因此真实生产环境中，常常见到客户在需要扩容时，采取重新新建集群的方式。数据瑰岛数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迁代迅速，相关人员需保持积极的知识更新意识。根关人才市场较小，人才芽乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。云时代的数据处理要求随着数据量和计算能力的爆发式增长，云计算技术的迅猛发展，云原生架构愈受欢迎，云原生时代应运而生。云原生时代，越来越多的企业将应用向云

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

2025年增长值175ZB，而中国的数据圈有望于2025年爆炸式增长为世界第一。数据被称为数字经济时代的“石油”，如同石油驱动了工业化时代的进步，大数据将推动智能化与数字化时代的发展。数据量的爆发式增长为了挖掘数据的价值，企业面临着海量数据的存储与分析需求，业务也面临着更多热点及突发流量所带来的挑战。面对数据计算（Data Computing）的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字桶效应传统 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖垮”整个集群的性能，导致查询速度变慢。随着时间的推移，业务的增长，企业往往需要在1-2年后对集群增加计算节点，此时，无论新的计算节点性能如何好，集群总体性能都会受制于老的节点。因此真实生产环境中，常常见到客户在需要扩容时，采取重新新建集群的方式。数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迭代迅速，相关人员需保持积极的知识更新意识。相关人才市场较小，人才匮乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求随着数据量和计算能力的爆发式增长，云计算技术的迅猛发展，云原生架构愈受欢迎，云原生时代应运而生。云原生时代，越来越多的企业将

0 码力 | 17 页 | 2.02 MB | 1 年前
3
PieCloudDB：云原生分布式虚拟数仓的诞生之旅

• 参考云被认同的时间线. • 弹性伸缩（成本 & 性能 & 灵活）. • 云对于⼩中⼤客⼾都有价值. @2022 OpenPie. All rights reserved. OpenPie Confidential PieCloudDB简介 (cont.) • PieCloudDB产品⽬标 • 安全可靠使⽤简单功能⻬全性能极致 • 公有云、私有云、混合云 • ⼀个构建于⼤数据计算引擎上的⼤数据计算平台 wrapper访问Parquet, etc. @2022 OpenPie. All rights reserved. OpenPie Confidential 构建之路 - 数据访问加速 • S3访问考虑（提升性能 & 降低成本） • 使⽤缓存，⻓远来说分布式缓存. • 虚拟数仓：⼀致性Hash存储缓存⽂件. • Data Skipping (⽐如Block Skipping，预聚集，etc）. • S3访没有耗时的2PC分布式事务. @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路 • 性能变好 • 聚集下推⽀持. • 预计算⽀持. • Block skipping初步⽀持. • 元数据系统持续的性能优化 • ... @2022 OpenPie. All rights reserved. OpenPie Confidential 成⻓之路

0 码力 | 24 页 | 2.01 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

Note 版本号：V2.1 发布日期：2022 年 10 月内核 • 聚集下推功能得到增强：通过把聚集操作下推到连接操作之前去执行，极大的减少连接操作需要处理的数据量，使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性能。避免各种异常情况下数据残留。 • 简墨（JANM）分布式处理增强：更高效的元数据采集和分发，提升用户查询响应时间，降低系统负载 • 简墨（JANM）动态分配读取文件增强 dispatch 性能：此优化将动态的分配要读取的文件给各个执行节点，降低查询的启动代价。 • 原生格式存储：在 HDFS/NAS 系统上支持原生存储格式。 • 对 Orca 的支持：PieCloudDB 模型的模块化查询优化器，帮助用户对 SQL 进行优化，生成高效的查询计划。 • 支持超大数据量字段 • 支持快速 ETL/ELT： Kafka 流数据导入支持，copy 性能大幅提升。 • 外部数据源的查询（实验性功能）： PieCloudDB 支持 foreign-data wrapper 模块，使用户可以访问包括但不限于 HDFS、MySQL 等数据源，同时支持用户自行开发

0 码力 | 3 页 | 257.15 KB | 1 年前
3

共 19 条前往

页

分类

语言

格式

云原生数据库PieCloudDB 性能优化之路

πDataCS赋能工业软件创新与实践

云时代下多数据计算引擎的设计与实现

云原生虚拟数仓 PieCloudDB ETL 方案设计与实现

云原生数据库 PieCloudDB eMPP架构设计与实现

大模型时代下向量数据库的设计与应用

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书

PieCloudDB：云原生分布式虚拟数仓的诞生之旅

PieCloudDB Database V2.1 版本说明