召回率 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Al原生数据库与RAG

向量数据库 LLM 编排 Copilot RAG典型挑战和解决方案  挑战一：向量召回不准确  挑战四：幻觉、胡说八道  挑战五：定制化成本  挑战二：数据组织混乱丧失语义  挑战三：多样化查询需求  数据加工  数据库  文档结构识别  文字加工  多路召回  融合排序 RAG引擎工作流程文档格式转换 LLM Answer 大模型答案文档格式解析弹性模版抽取引擎跨模态文档抽取系统文档表格抽取系统规则引擎模型系统文档内容抽取文档格式解析 Prompt Template 提示模板 Recall 多路召回 Query 问题 Embedding 向量化 KnowledgeBase 知识库 ANN Parser Vector Index Full Text Index Cross Attentional 基于视觉的文档理解和切分 Documents 基于视觉的文档理解和切分页眉和页脚段落划分文字换行表格处理基于视觉的文档理解和切分文字块文字拼接图表对话实例多路召回关键词检索 + 向量 BM25 变种 + KNN  行业词典  RRF（Reciprocal Rank Fusion）  Field length normalize  Cross

0 码力 | 25 页 | 4.48 MB | 1 年前
3
TiDB v8.4 中文手册

TiDB。提供丰富的数据迁移工具帮助应用便捷完成数据迁移。 2.1.2 四大核心应用场景 • 金融行业场景金融行业对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高。传统的解决方案的资源利用率低，维护成本高。TiDB 采用多副本 + Multi-Raft 协议的方式将数据调度到不同的机房、机架、机器，确保系统的 RTO <= 30s 及 RPO = 0。 33 • 海量数据及高并发的这个说明指出： 245 1. core_count 就是 _ 物理核心数 _，与你是否开启超线程无关。 2. 数据被全量缓存时，effective_spindle_count 应被设置为 0，随着命中率的下降，会更加接近实际的 HDD 个数。 3. 这里没有任何基于 SSD 的经验公式。这里的说明让你在使用 SSD 时，需探求其他的经验公式。可以参考 CockroachDB 对数据库连接池中的描述，推荐的连接数大小公式为： SQL 的效率，增强代码的可维护性。 336 4.7.7.1 基本使用公共表表达式 (CTE) 是一个临时的中间结果集，能够在 SQL 语句中引用多次，提高 SQL 语句的可读性与执行效率。在 TiDB 中可以通过WITH 语句使用公共表表达式。公共表表达式可以分为非递归和递归两种类型。 4.7.7.1.1 非递归的 CTE 非递归的 CTE 使用如下语法进行定义： WITH

0 码力 | 5072 页 | 104.05 MB | 10 月前
3
TiDB v8.5 中文手册

TiDB。提供丰富的数据迁移工具帮助应用便捷完成数据迁移。 2.1.2 四大核心应用场景 • 金融行业场景金融行业对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高。传统的解决方案的资源利用率低，维护成本高。TiDB 采用多副本 + Multi-Raft 协议的方式将数据调度到不同的机房、机架、机器，确保系统的 RTO <= 30s 及 RPO = 0。 38 • 海量数据及高并发的这个说明指出： 249 1. core_count 就是 _ 物理核心数 _，与你是否开启超线程无关。 2. 数据被全量缓存时，effective_spindle_count 应被设置为 0，随着命中率的下降，会更加接近实际的 HDD 个数。 3. 这里没有任何基于 SSD 的经验公式。这里的说明让你在使用 SSD 时，需探求其他的经验公式。可以参考 CockroachDB 对数据库连接池中的描述，推荐的连接数大小公式为： SQL 的效率，增强代码的可维护性。 340 4.7.7.1 基本使用公共表表达式 (CTE) 是一个临时的中间结果集，能够在 SQL 语句中引用多次，提高 SQL 语句的可读性与执行效率。在 TiDB 中可以通过WITH 语句使用公共表表达式。公共表表达式可以分为非递归和递归两种类型。 4.7.7.1.1 非递归的 CTE 非递归的 CTE 使用如下语法进行定义： WITH

0 码力 | 5095 页 | 104.54 MB | 10 月前
3
HBase最佳实践及优化

响极大 • 多租户隔离能力差 • 大内存(>100GB)管理差 12 Postgres Conference China 2016 中国用户大会 Kudu的设计目标 • 扫描大数据量时吞吐率高(列式存储和多副本机制) – 目标: 相对Parquet的扫描性能差距在2x之内 • 访问少量数据时延时低(主键索引和多数占优复制机制) – 目标: SSD上读写延时不超过1毫秒 • 类似的数据库语义(初期支持单行 – 写需要减少Compaction操作，因此文件越多越好 – 优化读或者写之一，而不是全部 • 顺序 vs. 随机？ • 参考值——每个RegionServer吞吐率>20MB/s – 读吞吐率>3000ops/s, 写吞吐率>10000ops/s • 尽量在HBase表结构设计时就考虑解决性能问题，而不是通过设置参数来调整HBase性能！ Postgres Conference China 服务器硬盘空间不大于6TB*RegionServer • 足够的内存堆大小（约等于硬盘空间/200） • HBase对于CPU要求高，越多core越好 • 磁盘与网络的速度匹配 – 比如如果是24块硬盘，吞吐率约2.4GB/s，则网络需要至少万兆网络。而千兆网一般配4到6 块硬盘。 • 更多的硬盘数量能增加并发，提高HBase 的读性能 Postgres Conference China 2016

0 码力 | 45 页 | 4.33 MB | 1 年前
3
Greenplum 精粹文集

Sharedisk 架构，后者最大瓶颈就是在 IO 吞吐上，在大规模数据处理时，IO 无法及时 feed 数据给到 CPU， CPU 资源处于 wait 空转状态，无法充分利用系统资源，导致 SQL 效率低下：一台内置 16 块 SAS 盘的 X86 服务器，每秒的 IO 数据扫描性能约在 2000MB/s 左右，可以想象，20 台这样的服务器构成的机群 IO 性能是 40GB/s，这样超大的 IO master，所以 master 节点的可用性直接关系到集群的稳定，但从实践经验来看，由于 master 节点只存元数据，只负责 SQL 的解析、分发以及最终计算结果的展现，所以承担的负载一般都非常小，故障率也极低，在我们维护阿里 Greenplum 集群 3 年的时间里，以及接触到的客户中，基本上没有碰到由于 master 故障导致集群不可用的情况，唯一一次，还是因为客户误操作同时将 master 和均匀为第一大原则，选取更有业务意义的字段，并非必须选择原库的主键（PK）。 ·压缩表使用：大表都要采用压缩存储，既节省空间也节省 IO 资源。长远来看还可降低阵列卡和磁盘的故障率。 ·行存还是列存：列存储有更高的压缩率，合适于聚合运算，但不合适于宽表。一个数据库中不应只有一种存储方式，每张表应依据实际情况设计存储方式。 ·临时表：对于程序中所使用到的临时表和中间表，上述 3 点规则同样适用。

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

表数据经常 insert；查询中选择⼤部分的列；列存储的应⽤场景：列存储⼀般适⽤于宽表（即字段⾮常多的表）。在使⽤列存储时，同⼀个字段的数据连续保存在⼀个物理⽂件中，所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多，另外在多数字段中筛选其中⼏个字段中，需要扫描的数据量很⼩，扫描速度⽐较快。因此，列存储尤其适合在宽表中对部分字段进⾏筛选的场景。注意：列存储的表必须是追加表（Appendonly 表数据经常insert； 3. 查询中选择⼤部分的列；列存储的应⽤场景：列存储⼀般适⽤于宽表（即字段⾮常多的表）。在使⽤列存储时，同⼀个字段的数据连续保存在⼀个物理⽂件中，所以列存储的压缩率⽐普通压缩表的压缩率要⾼很多，另外在多数字段中筛选其中⼏个字段中，需要扫描的数据量很⼩，扫描速度⽐较快。因此，列存储尤其适合在宽表中对部分字段进⾏筛选的场景。列存储的表必须是追加表（Appendonly ⾼。对于压缩的数据，使⽤索引访问⽅法时，只有需要的数据才会被解压缩。 3. 避免在经常改变的列上创建索引：在经常更新的列上创建索引会导致每次更新数据时写操作⼤量增加。 4. 创建选择率⾼的 B-树索引，对于选择率较低的列，使⽤ Bitmap 索引。 5. 对参与连接操作的列创建索引：对经常⽤于连接的列（例如：外键列）创建索引，可以让查询优化器使⽤更多的连接算法，进⽽提⾼连接效率。 6. 对经常出现在

0 码力 | 206 页 | 5.35 MB | 1 年前
3
百度智能云 Apache Doris 文档

使用 MERGE 方式导入。必须是一张 Unique Key 的表。当导入数据中的 v2 列的值大于 100 时，该行会被认为是一个删除行。导入任务的超时时间是 3600 秒，并且允许错误率在 10% 以内。 9. 导入时指定source_sequence列，保证UNIQUE_KEYS表中的替换顺序：必须是是 Unqiue Key 模型表，并且指定了 Sequcence Col。数据会按照源数据中设置。默认为0，即表示当有一条错误数据时，整个导入任务将会失败。如果用户希望忽略部分有问题的数据行，可以将次参数设置为 0~1 之间的数值，Doris 会自动跳过哪些数据格式不正确的行。关于容忍率的一些计算方式，可以参阅列的映射，转换与过滤文档。 6. 严格模式属性用于设置导入任务是否运行在严格模式下。该格式会对列映射、转换和过滤的结果产生影响。关于严格模式的具体说明，可参阅严格模式 _stream_load Baidu 百度智能云文档 SQL手册 39 3. 导入本地文件 testData，并设置最大容许错误率 4. 导入本地文件 testData，并指定列映射关系 5. 导入本地文件 testData，并指定分区，以及最大容许错误率 6. 使用streaming方式导入 7. 导入含有HLL列的表 8. 导入含有 BITMAP 列的表 9. 导入 Json

0 码力 | 203 页 | 1.75 MB | 1 年前
3
微信 SQLite 数据库损坏恢复实践

非原子操作 Backup API 热备份稍慢 .dump （SELECT 输出）有选择备份备选方案测试： ~50MB，10W 条目，加密 DB .dump：先压缩后加密 → 压缩率高 48 48 6.5 大小(MB) 3.2 3.2 92 恢复耗时(秒) 复制 + 压缩 Backup + 压缩 dump + 压缩 14 32 18 备份耗时(秒) ◊ 254% 142% 备份速度(条/秒) 恢复速度(条/秒) 原始 dump 实现我们的方案 5469 13916 1088 1545 72% 28% 恢复成功恢复失败线上恢复率备份未覆盖备份损坏时效问题 ◊ 问题背景 ◊ 常规做法 ◊ 数据备份 ◊ Repair Kit ◊ 组合方案 SQLite 恢复 SQLite 损坏情况 41% 59% Backup ◊ 最小化系统 ◊ 读数据，写新DB ◊ 只包含核心逻辑 ◊ 高度容错 ◊ Fallback 到备份 Repair Kit 78% 22% 成功修复无法恢复线上恢复率统计方法：按 Page 数 ◊ 问题背景 ◊ 常规做法 ◊ 数据备份 ◊ Repair Kit ◊ 组合方案 SQLite 恢复组合方案 Repair Kit 备份恢复 dump

0 码力 | 31 页 | 546.35 KB | 1 年前
3
PieCloudDB Database 产品白皮书

数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迁代迅速，相关人员需保持积极的知识更新意识。根关人才市场较小，人才芽乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。云时代的数据处理要求随着数据量和计算能力的爆发式增长，云计算技术的迅猛发展，云原生架构愈受欢迎，云原生时代应运而生。云原生时代，越来越多的企业将应用向云上迁移，而越 pieCloudDB 打造了全新的存储引擎--简墨 (JANM) ，实现了基于对象存储的行列混存结构。行列混存结合了行存和列存的优势，允许面向列的压缩方案，压缩率更高，节省存储空间，跳过不必要的列的扫描，提高查询效率; 在读取少量数据时，提高Cache命中率，减少MO 次数。 pieCloudDB实现了存储中立，支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式，还支持部署在存储系统的开源格式，例如

0 码力 | 17 页 | 2.68 MB | 1 年前
3
云原生虚拟数仓PieCloudDB Database产品白皮书

数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迭代迅速，相关人员需保持积极的知识更新意识。相关人才市场较小，人才匮乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。 5 云时代的数据处理要求随着数据量和计算能力的爆发式增长，云计算技术的迅猛发展，云原生架构愈受欢迎，云原生时代应运而生。云原生时代，越来越多的企业将应用向云上迁 PieCloudDB 打造了全新的存储引擎--简墨（JANM），实现了基于对象存储的行列混存结构。行列混存结合了行存和列存的优势，允许面向列的压缩方案，压缩率更高，节省存储空间；跳过不必要的列的扫描，提高查询效率；在读取少量数据时，提高Cache命中率，减少 I/O 次数。 PieCloudDB实现了存储中立，支持公有云、私有云、混合云。PieCloudDB 除支持自己的存储格式，还支持部署在存

0 码力 | 17 页 | 2.02 MB | 1 年前
3

共 53 条前往

页

分类

语言

格式

Al原生数据库与RAG

TiDB v8.4 中文手册

TiDB v8.5 中文手册

HBase最佳实践及优化

Greenplum 精粹文集

Greenplum数据仓库UDW - UCloud中立云计算服务商

百度智能云 Apache Doris 文档

微信 SQLite 数据库损坏恢复实践

PieCloudDB Database 产品白皮书

云原生虚拟数仓PieCloudDB Database产品白皮书