大模型时代下向量数据库的设计与应用
拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - L 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest Neighbor • 在已 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询0 码力 | 28 页 | 1.69 MB | 1 年前3πDataCS赋能工业软件创新与实践
⾏业顶级数据库的 抽象思考和设计原则复用 @2024 OpenPie. All rights reserved. OpenPie Confidential 云原⽣分布式优化器--达奇 多表连接的最优 顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归 CTE的优化 其他相关优化 聚集下推 通过把聚集操作下推到连接操作之前去执⾏,极⼤的减少连接操作需要处理的数据量,使得查询性能显 All rights reserved. OpenPie Confidential P i e C l o u d V e c t o r 竞 争 优 势 专用向量数据库 具备向量搜索能⼒的云原⽣虚拟数仓 具备向量搜索能⼒的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间 的数据缺乏⼀致性 • 专业技能的额外劳动⼒成本、额外的许可成本 • 有限的查询语⾔能⼒、可编程性和可扩展性 打破专用向量数据库的局限性 • 统⼀的数据平台,在动态扩缩容过程中⽆需移 动数据,充分保障数据的⼀致性 • 使用简单,学习成本低,⽆需额外投⼊ • 既满⾜了向量存储和向量搜索的需求,又升级 实现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法,为不同的业务场景提 供更灵活⾼效的解决⽅案 突破传统数据库的技术瓶颈 • ⽆法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下,易用性和性能较差0 码力 | 36 页 | 4.25 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector 云原生向量数据库,为大模型提供独特记忆 PieCloudVector 竞争优势 专用向量数据库 具备向量搜索能力的云原生虚拟数仓 具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的 数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 打破专用向量数据库的局限性 • 统一的数据平台,在动态扩缩容过程中无需移动 数据,充分保障数据的一致性 • 使用简单,学习成本低,无需额外投入 • 既满足了向量存储和向量搜索的需求,又升级实 现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法,为不同的业务场景提供 更灵活高效的解决方案 突破传统数据库的技术瓶颈 • 无法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下,易用性和性能较差0 码力 | 29 页 | 7.46 MB | 1 年前3云原生数据库PieCloudDB 性能优化之路
bar (5 rows) • 主要处理查询语句中FROM和WHERE部分 • 同时也会考虑到ORDER BY的信息 • 代价驱动 • 为基表生成扫描路径,并计算扫描路径的代价和结果集大小 • 搜索整个连接顺序空间,为连接操作生成连接路径 • O(n!) • 动态规划 • 遗传算法 • 考虑外连接对连接顺序的限制 (A leftjoin B on (Pab)) innerjoin C0 码力 | 26 页 | 711.44 KB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
是⼀个基于eMPP架构的云原⽣分布式优化器,它 可以为海量数据集上的复杂OLAP查询提供最优的查询计划。 • 分布式优化器 • 处理复杂OLAP查询 • 云原生优化器 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 更多⾼阶计算功能 • 聚集下推:1.0已经⽀持,在⼀些情况下可以⼗倍百倍更多倍提升0 码力 | 31 页 | 1.43 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
并行执行 多个更小的 计划单元 @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 @2022 OpenPie. All rights reserved. OpenPie0 码力 | 45 页 | 1.32 MB | 1 年前3PieCloudDB 的云原生之路
查询提供最优的查询计划。 • 分布式优化器 • 处理复杂 OLAP 查询 • 云原生优化器 PieCloudDB 优化器「达奇」 IvorySQL开源数据库社区 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 IvorySQL开源数据库社区 云原生优化器 聚集下推 预计算 文件剪裁 针对云环境的特性,提供更多高阶的优化0 码力 | 47 页 | 1.80 MB | 1 年前3PieCloudDB云原生数仓虚拟化之路
PieCloudDB Optimizer @2022 OpenPie. All rights reserved. OpenPie Confidential 处理复杂OLAP查询 多表连接的最 优顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归CTE 的优化 等等 @2022 OpenPie. All rights reserved. OpenPie0 码力 | 44 页 | 1.64 MB | 1 年前3
共 8 条
- 1