连接搜索 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

πDataCS赋能工业软件创新与实践

HDFS分布式⽂件系统 S3对象存储其他Data Lake Bare-Metal IaaS资源执⾏器执⾏器执⾏器协调器协调器虚拟数仓1 执⾏器协调器虚拟数仓2 执⾏器 … 连接管理查询优化器资源隔离向量化执⾏事务管理执⾏计划并⾏计算⾼可用数据查询数据加载弹性伸缩自定义函数集群管控元数据访问业务数据读写元数据映射元数据： Ø 分布式KV，存储系统表 reserved. OpenPie Confidential 云原⽣分布式优化器--达奇多表连接的最优顺序搜索多阶段聚集分区表的静态和动态裁剪相关子查询的提升转换 CTE和递归 CTE的优化其他相关优化聚集下推通过把聚集操作下推到连接操作之前去执⾏，极⼤的减少连接操作需要处理的数据量，使得查询性能显著提升。在很多场景下经过严格的测试，聚集下推会取得百倍或千倍的性能提升。 All rights reserved. OpenPie Confidential P i e C l o u d V e c t o r 竞争优势专用向量数据库具备向量搜索能⼒的云原⽣虚拟数仓具备向量搜索能⼒的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的数据缺乏⼀致性 • 专业技能的额外劳动⼒成本、额外的许可成本 • 有限的查询语⾔能⼒、可编程性和可扩展性

0 码力 | 36 页 | 4.25 MB | 1 年前
3
云原生数据库PieCloudDB 性能优化之路

分发约束条件，收集外连接信息等 • 扫描/连接优化阶段 • 主要处理扫描和连接操作 • 扫描/连接之外的优化阶段 • 主要处理除扫描和连接之外的其他操作，例如聚集、排序等 • 后处理阶段 • 主要把前面的处理结果转换成执行器期望的形式 • 简化表达式 • 简化连接树 • 把 IN,EXISTS 等类型的子查询转换为半连接 • 提升子查询 • 把外连接转换为内连接 • 把外连接转换为反连接 • • 分发约束条件 • 构建等价类 • 收集外连接信息 • 消除无用连接 • … SELECT … FROM foo WHERE EXISTS (SELECT 1 FROM bar WHERE foo.a = bar.c); => SELECT … FROM foo *SEMI JOIN* bar ON foo.a = bar.c; SELECT * FROM foo JOIN (SELECT 42; 外连接的上层有严格的约束条件，且该约束条件限定了来自 nullable side 的某一变量为非 NULL 值 SELECT * FROM foo LEFT JOIN bar ON foo.a = bar.c WHERE bar.c IS NULL; => SELECT * FROM foo *ANTI JOIN* bar on foo.a = bar.c; 外连接本身有严格的连接条件，且该连接条件引用了来自

0 码力 | 26 页 | 711.44 KB | 1 年前
3
云原生数据库 PieCloudDB eMPP架构设计与实现

是⼀个基于eMPP架构的云原⽣分布式优化器，它可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器处理复杂OLAP查询多表连接的最优顺序搜索多阶段聚集分区表的静态和动态裁剪相关子查询的提升转换 CTE和递归CTE 的优化等等更多⾼阶计算功能 • 聚集下推：1.0已经⽀持，在⼀些情况下可以⼗倍百倍更多倍提升

0 码力 | 31 页 | 1.43 MB | 1 年前
3
PieCloudDB：基于PostgreSQL的eMPP云原生数据库

计算节点间并行执行多个更小的计划单元 @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询多表连接的最优顺序搜索多阶段聚集分区表的静态和动态裁剪相关子查询的提升转换 CTE和递归CTE 的优化等等 @2022 OpenPie. All rights reserved. OpenPie

0 码力 | 45 页 | 1.32 MB | 1 年前
3
PieCloudDB 的云原生之路

查询提供最优的查询计划。 • 分布式优化器 • 处理复杂 OLAP 查询 • 云原生优化器 PieCloudDB 优化器「达奇」 IvorySQL开源数据库社区处理复杂OLAP查询多表连接的最优顺序搜索多阶段聚集分区表的静态和动态裁剪相关子查询的提升转换 CTE和递归CTE 的优化等等 IvorySQL开源数据库社区云原生优化器聚集下推预计算文件剪裁

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询多表连接的最优顺序搜索多阶段聚集分区表的静态和动态裁剪相关子查询的提升转换 CTE和递归CTE 的优化等等 @2022 OpenPie. All rights reserved. OpenPie

0 码力 | 44 页 | 1.64 MB | 1 年前
3
大模型时代下向量数据库的设计与应用

拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队； • 国内虚拟数仓和eMPP技术提出者，不断在数据计算引擎方向进行创新，全面拥抱AI技术趋势。目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍大模型检索增强生成(RAG) 使用大模型可以构造问答，聊天等应用，但同时也存在以下问题 • 数据时效 - L 对每个用户输入同样通过embedding过程得到向量，从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出向量数据库 • embedding通过大模型将各种形式的数据转换成向量向量数据库 • 两个向量可以计算它们的距离（欧式，余弦/内积，曼哈顿等），距离越近，表示这两个物体越相似 • 向量搜索的基本问题：K-Nearest Neighbor • 在已对向量数据建立索引，可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发，为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发，为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询

0 码力 | 28 页 | 1.69 MB | 1 年前
3
兼容龙蜥的云原生大模型数据计算系统：πDataCS

πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector 云原生向量数据库，为大模型提供独特记忆 PieCloudVector 竞争优势专用向量数据库具备向量搜索能力的云原生虚拟数仓具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性打破专用向量数据库的局限性 • 统一的数据平台，在动态扩缩容过程中无需移动数据，充分保障数据的一致性 • 使用简单，学习成本低，无需额外投入 • 既满足了向量存储和向量搜索的需求，又升级实现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法，为不同的业务场景提供更灵活高效的解决方案突破传统数据库的技术瓶颈 • 无法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下，易用性和性能较差

0 码力 | 29 页 | 7.46 MB | 1 年前
3
PieCloudDB Database 社区版集群安装部署手册 V2.1

.............................................................................. 39 5. 外部工具或者应用连接配置 ................................................................................................ ...................................................................................... 40 5.4 配置连接访问 ................................................................................................ 集群。 l 推荐服务器资源不低于 8C/16GB/300GB。 l 一些镜像和组件默认在根目录下，所以操作系统的根目录要求不小于 150GB。 l 所有服务器需要配置 yum，且能够连接 Internet。 l 部署方案有两种，请根据实际情况选择： Ø 本地无 K8S 环境和对象存储，请选择第二章节《PieCloudDB 和 K8S 一起部署方案》 Ø 本地有 K8S

0 码力 | 42 页 | 1.58 MB | 1 年前
3
PieCloudDB Database V2.1 版本说明

Release Note 版本号：V2.1 发布日期：2022 年 10 月内核 • 聚集下推功能得到增强：通过把聚集操作下推到连接操作之前去执行，极大的减少连接操作需要处理的数据量，使得查询性能显著提升。 • 实现了 Block Skipping 的优化机制：数据库运行查询语句时，通过计算每个块（block）中列聚集信息，在执行期间跳过非必要的数据块，减少数据读取量提高查询性

0 码力 | 3 页 | 257.15 KB | 1 年前
3

共 13 条前往

页

分类

语言

格式

πDataCS赋能工业软件创新与实践

云原生数据库PieCloudDB 性能优化之路

云原生数据库 PieCloudDB eMPP架构设计与实现

PieCloudDB：基于PostgreSQL的eMPP云原生数据库

PieCloudDB 的云原生之路

PieCloudDB云原生数仓虚拟化之路

大模型时代下向量数据库的设计与应用

兼容龙蜥的云原生大模型数据计算系统：πDataCS

PieCloudDB Database 社区版集群安装部署手册 V2.1

PieCloudDB Database V2.1 版本说明