小部件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

HBase基本介绍

分数:语⽂文数据模型逻辑视图整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离. ⾸首先也有表/⾏行行/列列这三个概念. hbase最⼩小就是⼀一个table. 然后要为每⾏行行数据选择row key, row key和关系数据库的主键类似, 但不不是⾃自增的, 要我们⾃自定义, 这⾥里里我⽤用⼈人名当row key 然后是列列按CF分开系统组成 Region ⽔水平按rowkey分. 这个分两步, 第⼀一个是在建表的时候指定分的⽅方式. ⽐比如两个split, 0-5 6-10 ⾃自动分区是指⼀一个region⼤大⼩小超了了 region的概念. 这个很类似关系数据库⾥里里我们说⽔水平/垂直分表的意思. • 读缓存: BlockCache • 写缓存: Memstore • 写操作⽇日志: WAL 在Memstore⾥里里已经处理理好格式, 排序有⼀一个Memstore满了了, 就整个Region flush 这⾥里里每隔⼀一会就flush, 会⽣生成很多⼩小的HFile, HBase会执⾏行行两种compaction, minor com只是将⼩小的何为⼀一些⼤大的. major更更狠⼀一些, 合成⼀一个⽂文件 (all the HFiles in a region to one HFile per

0 码力 | 33 页 | 4.86 MB | 1 年前
3
HBase最佳实践及优化

案例：运营商清帐单系统关键需求 • 必须能够高效处理海量数据 – 单月清单数据量约1000亿条×1k/条=100TB，6个月总量高达 ~600TB – 从600TB清单数据中检索某用户某个月的清单记录，响应时间应小于1秒 – 支持高峰期每秒2000个并发访问查询 – 满足现在清帐单业务的查询统计需求(23类) – 实时入库，清单文件无积压（清单文件最大2万条，最小1条记录。实时生产，平均每秒2个20MB的清单文件，高峰期到每秒10个

0 码力 | 45 页 | 4.33 MB | 1 年前
3

共 2 条前往

页

HBase 基本介绍最佳实践优化

分类

语言

格式

HBase基本介绍

HBase最佳实践及优化