HBase基本介绍分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离. ⾸首先也有表/⾏行行/列列这三个概念. hbase最⼩小就是⼀一个table. 然后要为每⾏行行数据选择row key, row key和关系数据库的主键类似, 但不不是⾃自增的, 要我们⾃自定义, 这⾥里里我⽤用⼈人名当row key 然后是列列 按CF分开 系统组成 Region ⽔水平按rowkey分. 这个分两步, 第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL 在Memstore⾥里里已经处理理好格式, 排序 有⼀一个Memstore满了了, 就整个Region flush 这⾥里里每隔⼀一会就flush, 会⽣生成很多⼩小的HFile, HBase会执⾏行行两种compaction, minor com只是将⼩小的何为⼀一些⼤大的. major更更狠⼀一些, 合成⼀一个⽂文件 (all the HFiles in a region to one HFile per0 码力 | 33 页 | 4.86 MB | 1 年前3
HBase最佳实践及优化案例:运营商清帐单系统关键需求 • 必须能够高效处理海量数据 – 单月清单数据量约1000亿条×1k/条=100TB,6个月总量高达 ~600TB – 从600TB清单数据中检索某用户某个月的清单记录,响应时间应小 于1秒 – 支持高峰期每秒2000个并发访问查询 – 满足现在清帐单业务的查询统计需求(23类) – 实时入库,清单文件无积压(清单文件最大2万条,最小1条记录。 实时生产,平均每秒2个20MB的清单文件,高峰期到每秒10个0 码力 | 45 页 | 4.33 MB | 1 年前3
共 2 条
- 1













