大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3云原生数据库PieCloudDB 性能优化之路
郭峰 拓数派 云原生数据库PieCloudDB 性能优化之路 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以“Data Computing for New Discoveries”「数据计算,只为新发现」为使命, 成立后的短短10个月时间内,完成了包括头部产业基金、东吴证券、元 禾重元和政府科创平台在内的连续三轮战略融资。 禾重元和政府科创平台在内的连续三轮战略融资。 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设计基础,首 创全新 eMPP 分布式技术,帮助企业建立竞争壁垒的同时,实现数据价 值最大化,并在新基建中承担可靠和可控的世界级云数据库底座。 PostgreSQL优化器简介 PieCloudDB优化器之分布式特性简介 PieCloudDB优化器之云原生特性简介 Q/A Contents 录 目 01 •0 码力 | 26 页 | 711.44 KB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
--πDataCS简介 兼容龙蜥的云原生大模型数据计算系统 拓数派产品市场总监 吴疆 吴疆 深耕云计算和数据库行业十余年 拓数派(Openpie)产品市场总监 毕业于清华大学计算机系,先后在IBM,EMC, Pivotal,VMWare参与多个云平台和数据库项目 01 拓数派简介 πDataCS简介 02 πDataCS与龙晰 03 01. 拓数派简介 海 外 研 发 独创的云原生数据库旗舰产品以及之上的算法和数学模型,建立下一代云原生数据平台的前沿标准, 驱动企业实现从"软件公司"到"数据公司"再到"数学公司"的持续进阶。 拓数派旗下大模型数据计算系统(PieDataComputing System,缩写πDataCS),以云原生技术 重构数据存储和计算,一份存储,多引擎数据计算,全面升级大数据系统至大模型时代,使得自主可 控的大模型数据计算系统保持 归国前就职于美国Oracle公司数据库服务器技术部门,是Oracle Cloud Control的分布式调动引擎的 主要贡献者之一。 • 因为参与Pivotal的拆分创建、C轮融资和IPO成功,以及主导的Greenplum产品在全球范围的开源影 响力,被《数字商业周刊》选为2019年度封面人物。(《数商周刊》报道) 拓数派创始人、董事长兼首席执行官 • 冯雷带领团队实现数据库云原生虚拟化突破,打造0 码力 | 29 页 | 7.46 MB | 1 年前3PieCloudDB:基于PostgreSQL的eMPP云原生数据库
PieCloudDB: 基于PostgreSQL的eMPP 云原生数据库 吴疆 OpenPie产品和推广总监 @2022 OpenPie. All rights reserved. OpenPie Confidential @2022 OpenPie. All rights reserved. OpenPie Confidential !"#$%&'()*+,-./01234567489:;1<=>= 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 一个云原生实时大数据平台 平台底层:eMPP 云原生分布式SQL数据库 我们的目标:支持多模,serverless的实时大数据平台 关于PieCloudDB 使用简单 功能齐全 性能极致 安全可靠 @2022 OpenPie. All rights reserved0 码力 | 45 页 | 1.32 MB | 1 年前3云原生数据库 PieCloudDB : Unbreakable 安全特性剖析
云原生数据库 PieCloudDB : Unbreakable 安全特性剖析 王 淏 舟 P i e C l o u d D B 资 深 技 术 专 家 O p e n P i e | 拓 数 派 打造立足于国内 基础数据计算领域的世界级高科技创新驱 动机构 !"#$%&'()*+,-./01234567489:;1<=>=? @AB3C>75D?EAF?G4H?<7IJAK4F74I8L$MNO:PQR(STQUV: 加密用户数据 • 使用高强度加密算法 • AES-GCM 128 bit,AES-GCM 256 bit … • 特点 • 用户无感知 • 数据写入自动加密,读取自动解密 透明加密的作用 • 将数据库数据从明文存储转为加密存储 • 避免数据被系统运维人员直接读出 • 不依赖公有云/私有云/系统加密 • 用户合规需求 • 数据安全审计 • 业务安全审计 PART 02 需求和挑战 来自用户的需求(1) SIMD 支持 • 减少因为密钥泄露而造成的损失 • 多级密钥 • 密钥加密密钥 • 用户无感知 • 自动生成次级密钥 • 密钥自管理 • 分区加密 技术挑战(2) • 和数据库存储结合 • 不影响数据库内核(执行器,优化器) • 不修改/添加元数据表格式 • 业务拟合 • 不影响原有用户的查询\业务 • 不影响外围组件(ETL) PART 03 透明加密的实现 密钥管理0 码力 | 34 页 | 599.00 KB | 1 年前3云原生数据库 PieCloudDB eMPP架构设计与实现
•• ..... ......... ........ 蛐••• `` 一· I ...,... .. - ---- 矶0 HotDB 第 DATABA _届中国数据库技术大会 E TECHNOLOGY 拒产 ,rll&ttom 肖毛 线上直播 l CONFERE CE CHI \ 价值8 ChinaUrnx ,千UB A 2022 2018 2022 云原⽣数据库 PieCloudDB eMPP架构设计与实现 郭罡 拓数派CTO 关于拓数派(OpenPie) • 成⽴于2021年,以“Data Computing for New Discoveries”「数据计算, 只为新发现」为使命。 • 现Pre-A轮融资,已完成数亿元融资。 • 核⼼团队来⾃于各⼤⼚名校,有丰富的数据库(Greenplum,DB2, 年⼀直从事开源分布式数据库开发 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群 访问困难 运维成本 运维和DBA 我们需要一个云原生数据库 云解决了什么? 借助于云上分布式存储,解耦存储0 码力 | 31 页 | 1.43 MB | 1 年前3πDataCS赋能工业软件创新与实践
OpenPie Confidential 杭州拓数派科技发展有限公司 ,简称“OpenPie” 企业简介 l OpenPie是立⾜于国内的基础数据计算领域⾼科技创新机构; l 拥有强⼤的数据库内核研发团队、数据科学团队和数字化 转型团队; l 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎⽅ 向进⾏创新,全面拥抱AI技术趋势。 企业⽂化 使命:数据计算,只为新发现 愿景 与中国⼈民⼤学成立实习基地,打造中 国的云原⽣数据库世界级智⼒⾼地 11月 4月 获得元⽲重元和东吴证券Pre-A轮投资 标 志着企业进⼊快速成长期 拓数派 正式成立 成立杭州总部、北京研发中⼼、 上海全球品牌战略与⽣态发展中⼼ 蓬勃发展的拓数派 驱动数据计算时代的到来 9月 成立加拿⼤研发中⼼ 7月 PieCloudDB云原⽣数据库存算分离等关键技术打造完成 引领数据库⾏业全面⾛向云时代 8月 与东吴证券在数仓虚拟化和信创领域展开试点合作 12月 创始⼈冯雷再度荣登数字商业周刊“年度智造中国商业领袖” 4月 冯雷被评为杭州市所有的独角兽和准独角兽企 业中唯⼀“年度创业⼈物” 打造⼤模型时代 立身中国的世界级团队 首家以虚拟数仓通过信通院/可信AP数据库评测 7月 拓数派数据计算引擎PieCloudDB虚拟数仓再获信创认可 8月 拓数派⼊选中国信通院“铸基计划”「⾼质量数字化 转型产品及服务全景图」 拓数派再次携WAIC创建智能驾驶科技分会0 码力 | 36 页 | 4.25 MB | 1 年前3云原生虚拟数仓PieCloudDB Database产品白皮书
(弹性大规模并行计算)的云原生虚拟数仓 产品白皮书 www.OpenPie.com ©2023 OpenPie All Right Reserved . 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 PieCloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的到来,不仅使得计算成本极大地降低,也提供了无限丰富的计算资源,释放出数据计算产生智能的 更多机会。早在2019年,Gartner便做出预测:数据库市场的未来在云上 。在2022年首次发布的《数据库中国市场 指南》(Market 指南》(Market Guide for DBMS,China)中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平。云原生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 1 2 全 球 数 据 圈0 码力 | 17 页 | 2.02 MB | 1 年前3PieCloudDB Database 产品白皮书
20230penPieAIIRight Reserved, Openpie | PiecloudDB 基于eMPP (弹性大规模并行计算) 的云原生虚拟数仓 产品白皮书 行业背景 数据量的爆发式增长 数据库的未来在云上 传统数仓的痛点 云时代的数据处理要求 piecloudDB,云原生虚拟数仓 PieCloudDB 产品概述 PieCloudDB 产品架构 PieCloudDB 产品特性 PieCloudDB ,企业的数字 化转型面临巨大挑战,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。 数据库的未来在云上 随着云计算时代的到来,不仅使得计算成本极大地降低,也提供了无限丰富的计算资源,释放出数据计算产生智能的 更多机会。早在2019年,Gartner便做出预测: 数据库市场的未来在云上 作。在2022年首次发布的《数据库中国市场 指南》 (Market Guide Guide for DBMS,China) 中,Gartner 指出,中国数据库行业将加速增长并逐步向云端迁移,未来 四年,中国数据库行业向公有云迁移的速度将超过全球平均水平 生数据库成为大势所趋,各个企业也都在向这 一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 OpenpPie | PiecloudDB 基于eMPP0 码力 | 17 页 | 2.68 MB | 1 年前3PieCloudDB 的云原生之路
IvorySQL开源数据库社区 IvorySQL 用户组技术沙龙北京站 IvorySQL开源数据库社区 PieCloudDB 的云原生之路 姓名:吴疆 公司:拓数派 职位:产品及推广总监 IvorySQL开源数据库社区 吴疆 IvorySQL开源数据库社区 打造立足于国内 基础数据计算领域的世界级高科技创新驱动机构 杭州拓数派科技发展有限公司(又称“OpenPie”),以 “Data 旗下云原生分析型数据库 PieCloudDB,以云计算架构为设 计基础,首创全新 eMPP 分布式技术,帮助企业建立竞争壁垒 的同时,实现数据价值最大化,并在新基建中承担可靠和可控 的世界级云数据库底座。 IvorySQL开源数据库社区 2021 2022 当天即获得腾讯投资天使轮投资 成为 Day-1 准独角兽 7月 与中国人民大学成立实习基地,打造 中国的云原生数据库世界级智力高地 的 拓 数 派 引 领 数 据 计 算 时 代 的 到 来 9月 杭州萧山区政府“一事一议” 支持政策获批 6月 成立加拿大研发中心 7月 PieCloudDB 云原生数据库存算分离等关键技术打造完成 引领数据库行业全面走向云时代 8月 成立广州研发中心 10月 PieCloudDB 社区版与商业版正式发布 极速进入成长期 Day-1 2023 引领数据计算时代到来 1月 PieCloudDB0 码力 | 47 页 | 1.80 MB | 1 年前3
共 19 条
- 1
- 2