Greenplum 精粹文集提供强大的并行数据计算性能和海量数据管理能力。这个能力主要指 的是并行计算能力,是对大任务、复杂任务的快速高效计算,但如果 你指望 MPP 并行数据库能够像 OLTP 数据库一样,在极短的时间处 理大量的并发小任务,这个并非 MPP 数据库所长。请牢记,并行和 并发是两个完全不同的概念,MPP 数据库是为了解决大问题而设计的 并行计算技术,而不是大量的小问题的高并发请求。 再通俗点说,Greenplum 没有统计信息,不能做基于 cost-base 的优化;MPP 数据库可以利用统计信息很好地进行并行计算优化。例如,MPP 对 于不同分布的数据可以在计算中基于 Cost 动态决定最优执行路径, 如采用重分布还是小表广播。 Big Date2.indd 13 16-11-22 下午3:38 14 ·Reduce 效率对比: 对比于 MPP 数据库的 SQL 执行器 -executor,Mapreduce 技术支持;MPP 数据库可以基于 COST 来自动选择 Hash join、Merger join 和 Nestloop join, 甚 至 可 以 在 Hash join 通 过 COST 选择小表做 Hash,在 NestloopJoin 中选择 index 提高 join 性 能等等。 MPP 数据库对于 Aggregation(聚合)提供 Multiple-agg、Group- agg、sort-agg0 码力 | 64 页 | 2.73 MB | 1 年前3
HBase基本介绍分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离. ⾸首先也有表/⾏行行/列列这三个概念. hbase最⼩小就是⼀一个table. 然后要为每⾏行行数据选择row key, row key和关系数据库的主键类似, 但不不是⾃自增的, 要我们⾃自定义, 这⾥里里我⽤用⼈人名当row key 然后是列列 按CF分开 系统组成 Region ⽔水平按rowkey分. 这个分两步, 第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL 在Memstore⾥里里已经处理理好格式, 排序 有⼀一个Memstore满了了, 就整个Region flush 这⾥里里每隔⼀一会就flush, 会⽣生成很多⼩小的HFile, HBase会执⾏行行两种compaction, minor com只是将⼩小的何为⼀一些⼤大的. major更更狠⼀一些, 合成⼀一个⽂文件 (all the HFiles in a region to one HFile per0 码力 | 33 页 | 4.86 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 Greenplum 做各种补丁 脚本,也看到了 Greenplum 的大幅进步,甚至我们以前的小技巧也不再需要,持续的 进步,带来的是生态的蓬勃发展。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 ......................................................................................... - 364 - 小版本升级................................................................................................ ......................................................................................... - 364 - 小版本升级步骤 .............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
TiDB v8.0 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3978 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3978 15.3.11 如何在 TiDB 中修改 sql_mode? · 支持设置低精度 TSO 的更新间隔 #51081 @Tema TiDB 的低精度 TSO 功能使用定期更新的 TSO 作为事务时间戳。在可以容忍读到旧数据的情况下,该功能 通过牺牲一定的实时性,降低小的只读事务获取 TSO 的开销,从而提升高并发读的能力。 在 v8.0.0 之前,低精度 TSO 功能的 TSO 更新周期固定,无法根据实际业务需要进行调整。在 v8.0.0 中,TiDB 引入变量 之前,所有事务数据在提交之前均存储在内存中。当处理大量数据时,事务所需的内存成 为限制 TiDB 处理事务大小的瓶颈。虽然 TiDB 非事务 DML 功能通过拆分 SQL 语句的方式尝试解决事务大 小限制,但该功能存在多种限制,在实际应用中的体验并不理想。 从 v8.0.0 开始,TiDB 支持处理大量数据的 DML 类型。该 DML 类型在执行过程中将数据及时写入 TiKV,避 免将所有事务数0 码力 | 4805 页 | 101.28 MB | 1 年前3
TiDB v8.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3967 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3967 15.3.11 如何在 TiDB 中修改 sql_mode? · AUTO_RANDOM ID 分配进度的问题 #52255 @Leavrth * 修复在日志备份任务被暂停后,移除任务无法立即恢复 GC safepoint 的问题 #52082 @3pointer * 修复在小概率情况下,由于特殊的事件时序导致日志备份数据丢失的问题 #16739 @YuJuncen * 修复因 TiKV 重启,日志备份的 global checkpoint 推进提前于实际备份文件写入点,可能导致少量 公式为: connections = (number of cores * 4) 因此,你在使用 SSD 的情况下可以将连接数设置为 CPU 核心数 * 4。以此来达到初始的连接池最大连接数大 小,并以此数据周围进行进一步的调整。 4.4.4.1.4 调整方向 可以看到,在上方的经验公式中得到的,是一个推荐的初始值,若需得到某台具体机器上的最佳值,需在推 荐值周围,通过尝试,得到最佳值。0 码力 | 4807 页 | 101.31 MB | 1 年前3
TiDB v8.5 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4163 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4164 15.3.11 如何在 TiDB 中修改 sql_mode? · pingcap.com/zh/tidb/v8.4/cached-tables#缓存表">缓存表的查询性能 �→优化了缓存表索引扫描的查询性能,部分场景可提升 5.4 倍。在需要对小表进行高速查询的场景下, �→ 利用缓存表可大幅提升整体性能。 稳定性与高可用 0 码力 | 5095 页 | 104.54 MB | 10 月前 3
TiDB v8.4 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4143 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4143 15.3.11 如何在 TiDB 中修改 sql_mode? · pingcap.com/zh/tidb/v8.4/cached-tables#缓存表">缓存表的查询性能 �→优化了缓存表索引扫描的查询性能,部分场景可提升 5.4 倍。在需要对小表进行高速查询的场景下, �→ 利用缓存表可大幅提升整体性能。 稳定性与高可用 0 码力 | 5072 页 | 104.05 MB | 10 月前 3
TiDB v7.1 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3672 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3672 15.3.11 如何在 TiDB 中修改 sql_mode? · 公式为: connections = (number of cores * 4) 因此,你在使用 SSD 的情况下可以将连接数设置为 CPU 核心数 * 4。以此来达到初始的连接池最大连接数大 小,并以此数据周围进行进一步的调整。 4.4.4.1.4 调整方向 可以看到,在上方的经验公式中得到的,是一个推荐的初始值,若需得到某台具体机器上的最佳值,需在推 荐值周围,通过尝试,得到最佳值。 暂时还不能被运行: CREATE TABLE `bookshop`.`users` ( ); 4.5.3.4 定义列 列从属于表,每张表都至少有一列。列通过将每行中的值分成一个个单一数据类型的小单元来为表提供结构。 列定义通常使用以下形式: {column_name} {data_type} {column_qualification} 参数描述 • {column_name}:列名。0 码力 | 4369 页 | 98.92 MB | 1 年前3
TiDB v8.2 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4099 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 4099 15.3.11 如何在 TiDB 中修改 sql_mode? · 将一个大 CSV 文件切分 为多个小 CSV 文件来提升并发和导入性能,需要显式指定行结束符 terminator,参数的取值为 \r、\n 或 \r\n。如果没有指定行结束符,可能导致 CSV 文件数据解析异常。#37338 @lance6716 • 使用IMPORT INTO 导入 CSV 文件时,如果指定 SPLIT_FILE 参数将一个大 CSV 文件切分为多个小 CSV 文件 来提升并发和导入性能,需显式指定行结束符 公式为: connections = (number of cores * 4) 因此,你在使用 SSD 的情况下可以将连接数设置为 CPU 核心数 * 4。以此来达到初始的连接池最大连接数大 小,并以此数据周围进行进一步的调整。 4.4.4.1.4 调整方向 可以看到,在上方的经验公式中得到的,是一个推荐的初始值,若需得到某台具体机器上的最佳值,需在推 荐值周围,通过尝试,得到最佳值。0 码力 | 4987 页 | 102.91 MB | 10 月前3
TiDB v7.6 中文手册· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3871 15.3.10 TiDB 中,为什么出现后插入数据的自增 ID 反而小? · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 3871 15.3.11 如何在 TiDB 中修改 sql_mode? · 减少业务中断时间显得尤为重要。在 v7.6.0 之前 的版本中,Region 打散算法是性能恢复的主要瓶颈。在 v7.6.0 中,BR 优化了 Region 打散算法,可以迅速 将恢复任务拆分为大量小任务,并批量分散到所有 TiKV 节点上。新的并行恢复算法充分利用每个 TiKV 节点的所有资源,实现了并行快速恢复。在实际案例中,大规模 Region 场景下,集群快照恢复速度最 高提升约 10 倍。 配置项 修改类型 描述 TiDB Lightning block- �→ size 新增 控制物理 导入模式 (backend=' �→ local') 中本地文 件排序的 I/O 区块大 小。默认 值为 16KiB。当 IOPS 成为 瓶颈时, 可以调大 该参数的 值以缓解 磁盘 IOPS, 从而提升 数据导入 性能。 BR -- �→ granularity �→ 新增 通过设置0 码力 | 4666 页 | 101.24 MB | 1 年前3共 59 条- 1
- 2
- 3
- 4
- 5
- 6













