大模型时代下向量数据库的设计与应用
大模型时代下向量数据库的设计与应用 个人简介 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型 与大数据领域。拥有多年数据库内核研发和配套解决方案架构经验, 在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部 数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发, 并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心 邱培峰 拓数派向量数据库负责人 拓数派:大模型数据计算系统先行者 • 拓数派( OpenPie)是立足于国内的基础数据计算领域高科技 创新机构; • 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - LLM训练数据有截止日期,不包含最新信息,无法准确回答相关信息 • 私域数据 - LLM训练数据多来源于公开渠道,无法接触到私域数据,对特定领域的生成任务质量不高。 • 长期记忆 - LLM本身却没有长期记忆能力,对长时间交互的上下文0 码力 | 28 页 | 1.69 MB | 1 年前3Greenplum开源MPP数据库介绍
Confidential │ ©2022 VMware, Inc. 12 分布式计划举例 Confidential │ ©2022 VMware, Inc. 13 分布式执行和事务 Ø 火山/流水线模型 Ø QD(query dispatcher)负责下发查询,QE(query executor)负责执行查询 Ø 查询的生命周期: 1) 客户端连接coordinator, coordinator 列存、压缩,适合OLAP Ø 外部表: HDFS,S3,文件, 网络,命令,流式数据… Confidential │ ©2022 VMware, Inc. 16 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential │ ©2022 VMware, Inc. 17 GPText Ø MPP化的Apache Solr,用于全文检索和文本分析 Ø 举例:0 码力 | 23 页 | 4.55 MB | 1 年前3使用JDBC连接数据库
使用JDBC连接数据库 北京理工大学计算机学院 金旭亮 Java数据库应用程序全局视图 Java应用程序 JDBC数据库驱动 (*.jar) JDBC规定了一整套访问数据库的标准API,所有数据库都 需要实现它,因此,使用JDBC访问数据库的Java应用程 序,是很容易切换底层数据库的。 JDBC核心类型一览表 核心类型(java.sql) 说明 DriverManager 负责装载/卸载驱动程序 Connection 与数据库建立连接 Statement 在一个给定的连接中执行SQL语句 PreparedStatement 用于执行预编译的SQL命令 CallableStatement 用于调用数据库中存储过程 ResultSet 保存SQL命令的执行结果 上述组件是独立于底层数据库的,也就是说,只要连接上了数据 库,相同的代码,就可以顺利工作…… JDBC访问数据库的基本步骤 加载JDBC驱动程序 加载JDBC驱动程序 创建数据库连接 执行SQL语句 接收并处理SQL的返回结果 关闭创建的各个对象 对于有可视化界面的应用 程序,或者是Server端 应用程序,应该在独立的 线程中完成这些步骤。 出于精简学习负担的目的,我们将以SQLite为例介绍 JDBC的基本使用,在此基础之上,后面选择微软的 SQL Server来介绍JDBC的高级特性…… JDBC连接SQLite数据库 下载SQLite的JDBC驱动-10 码力 | 20 页 | 1.02 MB | 1 年前3Al原生数据库与RAG
Al原生数据库与RAG 张颖峰 英飞流(上海)信息科技有限公司 创始人 目 录 RAG技术实践 01 Infinity系统架构 02 RAG技术实践 第一部分 基于向量数据库的RAG解决方案 文档 文本块 向量 VectorDB Embedding 向量相似度 提问 答案 查询 结果 文本切分 相关文本块 提示词 提示词模版 对话机器人 搜索 推荐 Embedding模型 LLM LLM对企业信息架构的改变 对话机器人 搜索 推荐 数据库 APIs 文档 网站 日志 交易记录 向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案 挑战一:向量召回不准确 挑战四:幻觉、胡说八道 挑战五:定制化成本 挑战二:数据组织混乱丧失语义 挑战三:多样化查询需求 数据加工 数据库 文字加工 多路召回 融合排序 RAG引擎工作流程 文档格式转换 LLM Answer 大模型答案 文档格式解析 文档布局解析 句法模版 抽取引擎 开放域 抽取系统 跨模态文档预训练模型 弹性模版 抽取引擎 跨模态文档 抽取系统 文档 表格 抽取 系统 规则 引擎 模型 系统 文档内容抽取 文档格式解析 Prompt Template 提示模板 Recall0 码力 | 25 页 | 4.48 MB | 1 年前3分布式NewSQL数据库TiDB
优刻得科技股份有限公司 版权所有 分布式 分布式NewSQL数据库 数据库 TiDB 产品⽂档 2 9 11 12 12 12 12 12 13 14 14 14 14 15 15 16 16 18 ⽬录 ⽬录 ⽬录 ⽬录 概览 概览 什么是 什么是TiDB 产品优势 产品优势 ⾼度兼容 MySQL 动态扩展 分布式事务 HTAP 真正⾦融级⾼可⽤ 适⽤场景 适⽤场景 对数据⼀致性及⾼可靠 Real-time HTAP 场景 数据汇聚、⼆次加⼯处理的场景 真正⾦融级⾼可⽤ UCloud 云上 云上 TiDB 架构⽰意图 架构⽰意图 TiDB TiDB Serverless ⽬录 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 2/120 20 20 21 24 24 25 28 28 28 28 28 29 30 30 32 33 34 36 Serverless 删除 实例 实例 创建TiDB集群 查看TiDB实例列表 查看TiDB实例详情 删除TiDB实例 ⽤户 ⽤户 添加⽤⼾及权限 重置⽤⼾密码 删除⾮root⽤⼾ ⽬录 分布式NewSQL数据库 TiDB Copyright © 2012-2021 UCloud 优刻得 3/120 38 39 40 40 41 41 43 43 43 46 49 49 52 53 55 57 57 580 码力 | 120 页 | 7.42 MB | 5 月前3PostgreSQL和Greenplum 数据库故障排查
2018年PostgreSQL中国技术大会 PostgreSQL和Greenplum 数据库故障排查 赵振平 zzp@taryartar.com 北京太阳塔信息科技有限责任公司 2018年PostgreSQL中国技术大会 自我介绍 微信号:laohouzi999 2018年PostgreSQL中国技术大会 • 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) 腾讯最具价值专家(TVP) • 计算机畅销书作家 • 贵州省省管专家 • 国家首批大数据高级职称 • 出版了技术专著《Oracle数据库精讲与疑难解析》 • 出版了技术专著《成功之路:Oracle 11g学习笔记》 • 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi999 2018年PostgreSQL中国技术大会 数据定 义命令,比如CREATE,ALTER,和DROP 语句。mod记录所有ddl 语句,加上数据修改语句INSERT,UPDATE等,all记录所有执行的 语句,将此配置设置为all可跟踪整个数据库执行的SQL语句。 log_duration = off 记录每条SQL语句执行完成消耗的时间,将此配置设置为on, 用于统计哪些SQL语句耗时较长。 记录校验点的信息 log_checkpoints0 码力 | 84 页 | 12.61 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
Greenplum on Kubernetes 容器化MPP数据库 AGENDA 云数据库背景 云数据库实现方案 Greenplum on Kubernetes Greenplum Operator 总结 云数据库背景 云数据库背景 ● 资源变化 ○ 本地资源 → 云 ○ 静态资源 → 弹性需求 ● 数据变化 ○ 内部数据 → 多数据源 ○ 数据规模 → 不易预测 ○ 数据格式 数据共享 ● 云数据库市场巨大 ● 云数据库增速巨大 ● DBasS的需求 ● 跨云的需求 云数据库实现方案 云数据库需求 ● DBasS ○ 自动化运维 ○ 自动化调优 ● 弹性资源管理 ○ 存储资源 ○ 计算资源 ● 安全 ○ 用户数据 ○ 临时文件 ○ 网络传输 ○ 权限控制 ● 跨云 ○ 公有云 ○ 私有云 云数据库实现方案 ● 全新数据库 ○ Snowflake Snowflake ● 原有数据库架构升级 ○ Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network0 码力 | 33 页 | 1.93 MB | 1 年前3阿里云云数据库 Redis 版 快速入门
云数据库 Redis 版 快速入门 快速入门 文档目的 快速入门旨在介绍如何创建 Redis 实例以及连接实例数据库,使用户能够了解从购买 Redis 实例到开始使用实 例的流程。 目标读者 首次购买 Redis 实例的用户 想要了解如何连接 Redis 实例的用户 快速入门流程图 若您初次使用云数据库 Redis 版,请先了解使用限制以及关于 应用程序,您可以通过该控制台上直观的用户界面进行实例 创建、网络设置、实例管理、密码设置等操作。 Redis 管理控制台是阿里云管理控制台的一部分,关于控制台的通用设置和基本操作请参见使用阿里云管理控 云数据库 Redis 版 快速入门 1 制台。本文将介绍 Redis 控制台的通用界面,若有差异,请以控制台实际界面为准。 前提条件 使用阿里云账号登录 Redis 管理控制台。若没有阿里云账号,请单击注册。 进行查看,详细步骤请参见DMS 登录云 数据库。 可运维时间段 您可以在实例信息页面对可运维时间进行修改,阿里云会在可运维时间对实例进行生产维护,维护期间可能会 发生闪断,建议您尽量选择业务低峰期为运维时间段。 性能监控 单击实例 ID 即可进入实例信息页面,在左侧导航栏中选择性能监控查看 Redis 的历史性能数据,可以查看到 云数据库 Redis 版 快速入门 20 码力 | 29 页 | 1.07 MB | 1 年前3深度揭秘Greenplum开源数据库透明加密
深度揭秘Greenplum开源数据库 透明加密 Greenplum 研发工程师 王淏舟 1. 我们所面临的问题 2. 基于pgcypto的数据加密方案 3. GPDB数据透明加密方案设计 4. GPDB数据透明加解密流程 5. 总结 我们所面临的问题 什么是Greenplum数据库 一款开源的HTAP数据库: • MPP架构 • 完整的事务+ACID+标准SQL支持 • 支持上千个节点的部署 支持Python/R/Java直接访问处理数据库数据 • https://github.com/greenplum-db/gpdb GPDB GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 System Admin • 管理集群 • 数据备份恢复 GPDB为单独数据库软件 • 非一体机 • 缺少对硬件和系统的控制 潜在风险(一) GPDB的数据安全0 码力 | 48 页 | 10.19 MB | 1 年前3微信 SQLite 数据库 损坏恢复实践
微信 SQLite 数据库 损坏恢复实践 johnwhe (何俊伟) ◊ 问题背景 ◊ 常规做法 ◊ 数据备份 ◊ Repair Kit ◊ 组合方案 SQLite 恢复 ◊ 微信聊天记录只存客户端 ◊ SQLCipher 加密数据库 问题背景 ◊ SQLite 概率性损坏 ◊ 1/20,000 ~ 1/10,000 ◊ 256MB ~1%,1GB ~1‰ ◊ 设备断电、kernel SQLite 恢复 组合方案 Repair Kit 备份恢复 dump 尝试恢复最新数据 遇到错误,填补缺漏 前面都无法恢复,最后尝试 ◊ WeChat Database ◊ 加密数据库组件 ◊ 包含全部三种恢复方案 ◊ Android / iOS ◊ 其他特性与优化 WCDB 组件 WCDB 组件 今天开源! 关注我们的公众号 https://github.com/tencent/wcdb0 码力 | 31 页 | 546.35 KB | 1 年前3
共 132 条
- 1
- 2
- 3
- 4
- 5
- 6
- 14