大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 通过信通院测试 案例分析 - 东吴证券秀财gpt • 采用自研大模型东吴秀财GPT + LangChain开发框架 + PieCloudVector向量数据库构建了AIGC应 用平台,接入了交易应用的结构化数据和非结构化数据,其中非结构化数据主要是文本类数据 下一步展望 • GraphRAG 欢迎关注我们! 麦思博(msup)有限公司是一家面向技术型企业的培训咨询机构,携手2000余位0 码力 | 28 页 | 1.69 MB | 1 年前3
πDataCS赋能工业软件创新与实践据库等。 1 2 3 ⼤模型数据计算系统,以云原⽣技术重构数据存储和计算,⼀份数据,多引擎数据计算,AI数学模型、数据和 计算三者互为增强,全面升级⼤数据系统⾄⼤模型时代 ,赋能⾏业AI场景应用。 具备整体数据平台⽅案,支持多模数据处理(结构化、半结构化 以及非结构化数据),实现数据共享和分析。 软件优化 + 新硬件(FPGA)加速,实现数据全链路的性能飞跃, 让数据存储、SQL查 态合作伙伴都可以直接提供技术服务,7 * 24的安⼼保障。 @2024 OpenPie. All rights reserved. OpenPie Confidential PieCloudVector与LLM在私域知识库领域的应用实践路径 π D a t a C S 优 势 2 : 全 面 支 持 ⼤ 语 ⾔ 基 础 模 型 和 私 域 数 据 结 合 做 垂 直 应 用 @2024 OpenPie. All rights 进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证用户的实时性需求。PieCloudDB针对底层对象存储设计了 ⾼效的⽂件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼0 码力 | 36 页 | 4.25 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书8 11 13 15 16 目 录 行 业 背 景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增, IDC预测全球数据圈将于 2025年增长值175ZB, 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 每天有数个小的计算任务,需要数个节点 每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 拟化,提供云数仓智能化解决方案,助力企业建立以数据资产为核心的竞争壁垒。 7 PieCloudDB 产品架构 PieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层 基础设施层为 PieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、虚拟机以及容 器中,同时也提供 PieCloudDB0 码力 | 17 页 | 2.02 MB | 1 年前3
PieCloudDB Database 产品白皮书 (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 百岗 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技 术、物联网技术、5G等技术的发展,全球数据圈 (Global Datasphere) 呈指数级递增, IDC预测全球数据圈将于 2025年增长值175ZB, 成用户使用过程中性能差、故障率高、故障修复时间长等问题。 云时代的数据处理要求 随着数据量和计算能力的爆发式增长,云计算技术的迅猛发展,云原生架构愈受欢迎,云原生时代应运而生。云原生 时代,越来越多的企业将应用向云上迁移,而越来越多的数据也流向云上。公有云带来了众多优势: 时可以申请/释放的计算资源 霹 无限的计算资源 亿-曾 无限的存信池 C 二 低价的对象存储 Openpie | PiecloudDB 助力企业实现数据价值最大化,更好地赋能业务发展并走向绿色,成为新一代Al数据计算基础设施的一个典范。 PiecloudDB 产品架构 pieCloudDB 整体架构分为三个层次,包括基础设施层、数据处理层及数据应用层。详细阐述如下: 基础设施层为 pieCloudDB 提供计算资源、存储资源和网络资源,PieCloudDB 支持部署在物理服务器、庶拟机以及容 器中,同时也提供 PieCloudDB 公有云 Saa50 码力 | 17 页 | 2.68 MB | 1 年前3
兼容龙蜥的云原生大模型数据计算系统:πDataCS控的大模型数据计算系统保持全球领先,成为AI的基础科技底座的同时,开启AI技术的新范式。 πDataCS旨在助力企业优化计算瓶颈、充分利用和发挥数据规模优势,构建核心技术壁垒,让大模 型技术全面赋能行业AI场景应用,助力合作伙伴成功,为企业创造更大的商业价值。 全 球 数 据 计 算 系 统 引 领 者 • 归国后在美国500强EMC旗下创建了Greenplum中国,随后在2013年在Paul Maritz(届时VMware 24的安心保障。 πDataCS 优势1 :全面升级Hadoop大数据和Greenplum数仓至云原生数据平台 PieCloudVector与LLM在私域知识库领域的应用实践路径 πDataCS优势2: 全面支持大语言基础模型和私域数据结合做垂直应用 πDataCS优势3 :云原生下eMPP计算引擎全面颠覆MPP技术,大模型数据计算新范式 SQL语言实现的结构化数据上的模型计算 打破企业数据孤岛,整合企业所有表格类数据资源 业可灵活进行扩缩容,随着负载的变化实现高效的伸缩,轻松 应对PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多层 缓存结构,避免网络延迟和数据移动,提高计算效率,保证用 户的实时性需求。PieCloudDB针对底层对象存储设计了高效的 文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能高效地生成统计信息,并生成更高效0 码力 | 29 页 | 7.46 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现PieCloudDB eMPP 分布式架构 导出 (Extract) 转换 (Transform) 导入 (Load) 文件拷贝 CDC模式 流式传输 ETL本质是不同系统 (数据组织形式)之 间的数据移动 ETL • 便宜可扩展的对象存储,各系统通用 • 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据 • PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件 需求 • 多种数据源 • 多种数据格式 • 通用的数据处理/转换 • 唯一性与事务性保证 • 断点续传 • 错误处理 • 任务调度总控 pdbconduct • 数据源提取(插件/客户端工具) • 计算节点 Foreign Table, Formatter • 任务调度总控 pdbconduct • 独立运行,通常在 PieCloudDB 控制节点上 • 按需启动数据源(插件)导出0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现持久性 @2022 OpenPie. All rights reserved. OpenPie Confidential • Segment节点并不持有持久化的数据,在扩张/收缩的过程中不涉及数据的移动 • Segment节点不直接访问系统表,事务和锁 • 在扩张时只需要在新的虚拟机节点上部署二进制并向元数据服务注册 @2022 OpenPie. All rights reserved. OpenPie bquery都要被执行 一次,Query可能永远跑不出结果 @2022 OpenPie. All rights reserved. OpenPie Confidential CTE在SQL中的应用非常广泛(TPC-DS有48个query包含CTE) CTE用于SQL的重用 在Postgres中谓词不会被下推到CTE中,这会影响性能 PieCloudDB实现了CTE的聚集下推 @20220 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB Database 社区版集群安装部署手册 V2.1................................................................................ 39 5. 外部工具或者应用连接配置 .............................................................................................. KKZONE=cn 2. ./kk init registry -f config-sample.yaml -a artifact.tar.gz 可以输入 harbor 的节点地址至网页端访问查看,本次操作中 harbor 服务器是 pie5 节点,具体根据实际 情况进行修改,查看界面如下: • 访问地址:https://10.24.31.155/ • 用户名:admin KKZONE=cn 2. ./kk init registry -f config-sample.yaml -a artifact.tar.gz 可以输入 harbor 的节点地址至网页端访问查看,本次操作中 harbor 服务器是 pie5 节点,具体根据实际 情况进行修改,查看界面如下: • 访问地址:https://10.24.31.155/ • 用户名:admin0 码力 | 42 页 | 1.58 MB | 1 年前3
PieCloudDB 的云原生之路业可灵活进行扩缩容,随着负载的变化实现高效的伸缩, 轻松应对 PB 级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免网络延迟和数据移动,提高计算效率,保 证用户的实时性需求。PieCloudDB 针对底层对象存储设计了 高效的文件格式,可在节省网络请求的同时提高计算效率。 全新的优化器「达奇」 PieCloudDB 可以更智能高效地生成统计信息,并生成更高 现代存储技术 o 新硬件的使用 IvorySQL开源数据库社区 • 数据分布和弹性 o 分布式 eMPP 架构 (一致性Hash) o 本地数据减少高延时的云存储访问 o 减少数据移动 o 扩缩容最少的数据移动 • 数据安全性 o 透明数据加密 o 三级密钥 o 实时加解密 构建新一代云原生存储引擎 IvorySQL开源数据库社区 全链路优化 • 全新的存储引擎简墨(JANM) IaaS云和裸硬件上安装。 可打通多云的数据管道, 解锁对特定IaaS云的依赖 并获得云资源议价权。 实时处理 在计算层,各个计算节点针对元数据和用 户数据都设计了多层缓存结构,避免网络 延迟和数据移动,提高计算效率,保证用 户的实时性需求。 数据安全 PieCloudDB 提供企 业级透明数据加密。 运用实时加密,高强 度算法,多级密钥等 技术保护数据安全。 IvorySQL开源数据库社区0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路进⾏扩缩容,随着负载的变化实现⾼效的伸缩,轻松应对 PB级海量数据。 全新的存储「简墨」和缓存架构设计 在计算层,各个计算节点针对元数据和用户数据都设计了多 层缓存结构,避免⽹络延迟和数据移动,提⾼计算效率,保 证⽤户的实时性需求。PieCloudDB针对底层对象存储设计了 高效的文件格式,可在节省⽹络请求的同时提⾼计算效率。 全新的优化器「达奇」 PieCloudDB可以更智能⾼效地⽣成统计信息,并⽣成更⾼ OpenPie Confidential 构建新一代云原生存储引擎 • 数据分布和弹性 • 分布式eMPP架构 (一致性Hash) • 本地数据减少高延时的云存储访问 • 减少数据移动 • 扩缩容最少的数据移动 • 数据安全性 • 透明数据加密 • 三级密钥 • 实时加解密 @2022 OpenPie. All rights reserved. OpenPie Confidential IaaS云和裸硬件上安装。 可打通多云的数据管道, 解锁对特定IaaS云的依赖 并获得云资源议价权。 实时处理 在计算层,各个计算节点针对元数据和用 户数据都设计了多层缓存结构,避免网络 延迟和数据移动,提高计算效率,保证用 户的实时性需求。 数据安全 PieCloudDB提供企业 级透明数据加密。运 用实时加密,高强度 算法,多级密钥等技 术保护数据安全。 @2022 OpenPie. All0 码力 | 44 页 | 1.64 MB | 1 年前3
共 16 条
- 1
- 2













