大模型时代下向量数据库的设计与应用
拥有强大的数据库内核研发团队、数据科学团队和数字化转型团 队; • 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进 行创新,全面拥抱AI技术趋势。 目录 • 大模型应用和RAG • 向量近似搜索和向量数据库 • PieCloudVector架构设计与挑战 • 案例介绍 大模型 检索增强生成(RAG) 使用大模型可以构造问答,聊天等应用,但同时也存在以下问题 • 数据时效 - L 对每个用户输入同样通过embedding过程得到向量,从向量数据库中搜索距离相近数据 • 将这些辅助数据与用户输入同时输入给大模型之后输出 向量数据库 • embedding通过大模型将各种形式的数据转换成向量 向量数据库 • 两个向量可以计算它们的距离(欧式,余弦/内积, 曼哈顿等),距离越近,表示这两个物体越相似 • 向量搜索的基本问题:K-Nearest Neighbor • 在已 对向量数据建立索引,可以实现高效近似搜索 • 配套调用接口和生态工具 • 技术路线 • 从向量搜索及索引算法实现出发,为其搭配数据库功能 • 从数据存储方案(关系型数据库/非关系型数据库)出发,为其开发向量搜索及索引算法 PieCloudVector • 基于postgres打造的数据库内核 • 单机或分布式部署 • 支持完整的ACID • SQL进行向量搜索 • 支持向量标量混合查询0 码力 | 28 页 | 1.69 MB | 1 年前3TiDB v8.4 中文手册
· · · · · · · · 353 4.8 向量搜索 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 358 4.8.1 向量搜索概述· · · · · · · · · · · · · · · · · · · · · · · · 368 4.8.4 优化向量搜索性能 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 406 4.8.5 向量搜索限制· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3655 14.12.6 向量搜索索引· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5072 页 | 104.05 MB | 9 月前3TiDB v8.5 中文手册
· · · · · · · · 357 4.8 向量搜索 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 362 4.8.1 向量搜索概述· · · · · · · · · · · · · · · · · · · · · · · · 372 4.8.4 优化向量搜索性能 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 410 4.8.5 向量搜索限制· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3674 14.12.6 向量搜索索引· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · ·0 码力 | 5095 页 | 104.54 MB | 9 月前3πDataCS赋能工业软件创新与实践
⾏业顶级数据库的 抽象思考和设计原则复用 @2024 OpenPie. All rights reserved. OpenPie Confidential 云原⽣分布式优化器--达奇 多表连接的最优 顺序搜索 多阶段聚集 分区表的静态 和动态裁剪 相关子查询的 提升转换 CTE和递归 CTE的优化 其他相关优化 聚集下推 通过把聚集操作下推到连接操作之前去执⾏,极⼤的减少连接操作需要处理的数据量,使得查询性能显 All rights reserved. OpenPie Confidential P i e C l o u d V e c t o r 竞 争 优 势 专用向量数据库 具备向量搜索能⼒的云原⽣虚拟数仓 具备向量搜索能⼒的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间 的数据缺乏⼀致性 • 专业技能的额外劳动⼒成本、额外的许可成本 • 有限的查询语⾔能⼒、可编程性和可扩展性 打破专用向量数据库的局限性 • 统⼀的数据平台,在动态扩缩容过程中⽆需移 动数据,充分保障数据的⼀致性 • 使用简单,学习成本低,⽆需额外投⼊ • 既满⾜了向量存储和向量搜索的需求,又升级 实现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法,为不同的业务场景提 供更灵活⾼效的解决⽅案 突破传统数据库的技术瓶颈 • ⽆法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下,易用性和性能较差0 码力 | 36 页 | 4.25 MB | 1 年前3TiDB v5.2 中文手册
t[1m]))BY ( �→ le, instance))> 1 • 规则描述: TiDB 处理请求的延时。如果.99 的延迟大于 1 秒,则报警。 • 处理方法: 查看 TiDB 的日志,搜索 SLOW_QUERY 和 TIME_COP_PROCESS 关键字,查找慢 SQL。 256 7.5.1.3.3 TiDB_server_event_error • 报警规则: incre 会把相关的计算和判断下推到其他节点执行,而不是把其他节点的慢 查询数据都取回来在一台 TiDB 上执行。 8.1.5 查询 SLOW_QUERY/CLUSTER_SLOW_QUERY 示例 8.1.5.1 搜索 Top N 的慢查询 查询 Top 2 的用户慢查询。is_internal=false 表示排除 TiDB 内部的慢查询,只看用户的慢查询: select query_time, query +--------------+------------------------------------------------------------------+ 8.1.5.2 搜索某个用户的 Top N 慢查询 下面例子中搜索 test 用户执行的慢查询 SQL,且按执行消耗时间逆序排序显式前 2 条: select query_time, query, user from information_schema0 码力 | 2259 页 | 48.16 MB | 1 年前3TiDB v5.3 中文手册
index 无限等待,防止写入压力较重时 TiFlash 长时间等待数据同步而无法提供服务的问题 (新增默认超时为 5 分钟) – 解决了当日志体量很大时,用户搜索日志很慢或搜索不出的问题 – 解决了搜索比较久远的历史日志时,只能搜索出最近的一部分日志的问题 – 修复在打开 new collation 的情况下可能出现的结果错误 – 修复 SQL 语句中含有极长嵌套表达式时可能出现的解析错误 t[1m]))BY ( �→ le, instance))> 1 • 规则描述: TiDB 处理请求的延时。如果.99 的延迟大于 1 秒,则报警。 • 处理方法: 查看 TiDB 的日志,搜索 SLOW_QUERY 和 TIME_COP_PROCESS 关键字,查找慢 SQL。 269 7.5.1.3.3 TiDB_server_event_error • 报警规则: incre 会把相关的计算和判断下推到其他节点执行,而不是把其他节点的慢 查询数据都取回来在一台 TiDB 上执行。 8.1.5 查询 SLOW_QUERY/CLUSTER_SLOW_QUERY 示例 8.1.5.1 搜索 Top N 的慢查询 查询 Top 2 的用户慢查询。is_internal=false 表示排除 TiDB 内部的慢查询,只看用户的慢查询: select query_time, query0 码力 | 2374 页 | 49.52 MB | 1 年前3TiDB v5.1 中文手册
t[1m]))BY ( �→ le, instance))> 1 • 规则描述: TiDB 处理请求的延时。如果.99 的延迟大于 1 秒,则报警。 • 处理方法: 查看 TiDB 的日志,搜索 SLOW_QUERY 和 TIME_COP_PROCESS 关键字,查找慢 SQL。 7.5.1.3.3 TiDB_server_event_error • 报警规则: increase(t 会把相关的计算和判断下推到其他节点执行,而不是把其他节点的慢 查询数据都取回来在一台 TiDB 上执行。 8.1.5 查询 SLOW_QUERY / CLUSTER_SLOW_QUERY 示例 8.1.5.1 搜索 Top N 的慢查询 查询 Top 2 的用户慢查询。is_internal=false 表示排除 TiDB 内部的慢查询,只看用户的慢查询: select query_time, query +--------------+------------------------------------------------------------------+ 275 8.1.5.2 搜索某个用户的 Top N 慢查询 下面例子中搜索 test 用户执行的慢查询 SQL,且按执行消耗时间逆序排序显式前 2 条: select query_time, query, user from information_schema0 码力 | 2189 页 | 47.96 MB | 1 年前3兼容龙蜥的云原生大模型数据计算系统:πDataCS
πDataCS的第二个计算引擎 πCloudVector 计算引擎之 PieCloudVector 云原生向量数据库,为大模型提供独特记忆 PieCloudVector 竞争优势 专用向量数据库 具备向量搜索能力的云原生虚拟数仓 具备向量搜索能力的传统数据库 πCloudVector • 冗余数据、过度的数据搬运、分布式组件之间的 数据缺乏一致性 • 专业技能的额外劳动力成本、额外的许可成本 • 有限的查询语言能力、可编程性和可扩展性 打破专用向量数据库的局限性 • 统一的数据平台,在动态扩缩容过程中无需移动 数据,充分保障数据的一致性 • 使用简单,学习成本低,无需额外投入 • 既满足了向量存储和向量搜索的需求,又升级实 现了云上分布式向量化计算的技术突破 • 支持多种向量搜索算法,为不同的业务场景提供 更灵活高效的解决方案 突破传统数据库的技术瓶颈 • 无法弹性扩缩向量化存储和计算的资源 • 在向量化计算的场景下,易用性和性能较差0 码力 | 29 页 | 7.46 MB | 1 年前3常见Redis未授权访问漏洞总结
未授权访问漏洞 漏洞简介以及危害 ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引 擎,基于RESTful web接口。Elasticsearch是用Java开发的,并作为Apache许可条款下的开放源码发 布,是当前流行的企业级搜索引擎。Elasticsearch的增删改查操作全部由http接口完成。由于 Elasticse -在config/elasticsearch.yml中为9200端口设置认证等。 Hadoop 未授权访问漏洞 curl http://localhost:9200/_nodes #查看节点数据 更多利用可以自行搜索一下 漏洞简介以及危害 Hadoop是一个由Apache基金会所开发的分布式系统基础架构,由于服务器直接在开放了 Hadoop 机器 HDFS 的 50070 web 端口及部分默认0 码力 | 44 页 | 19.34 MB | 1 年前3TiDB v6.1 中文手册
\ --s3.endpoint '${S3-endpoint-URL}' \ --log-file decode-backupmeta.log 然后打开 backupmeta.json 文件,搜索 end_version 可以查看到快照对应的 TSO。 如有需要,你也可以将 json 格式的 backupmeta 文件编码回解码前的状态。执行 tiup br debug encode 命令, ]))BY ( �→ le, instance))> 1 • 规则描述: TiDB 处理请求的延时。如果延迟大于 1 秒的概率超过 99%,则报警。 • 处理方法: 查看 TiDB 的日志,搜索 SLOW_QUERY 和 TIME_COP_PROCESS 关键字,查找慢 SQL。 699 9.6.1.3.3 TiDB_server_event_error • 报警规则: incre 会把相关的计算和判断下推到其他节点执行,而不是把其他节点的慢 查询数据都取回来在一台 TiDB 上执行。 10.1.5 查询 SLOW_QUERY/CLUSTER_SLOW_QUERY 示例 10.1.5.1 搜索 Top N 的慢查询 查询 Top 2 的用户慢查询。is_internal=false 表示排除 TiDB 内部的慢查询,只看用户的慢查询: select query_time, query0 码力 | 3572 页 | 84.36 MB | 1 年前3
共 48 条
- 1
- 2
- 3
- 4
- 5