大规模机器学习 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

HBase最佳实践及优化

Conference China 2016 中国用户大会 9 HBase Sweet Spot 1. 使用主流廉价服务器搭建的单一大规模集群（服务器数目大于100甚至1000台） 2. 小规模的Scan操作(<1百万行)和Get操作 3. 运维难度大，大规模部署后单位运维成本低 4. 强一致性、开源、兼容私有部署/公有云部署 5. 通用的低延迟的基础存储引擎 • 尚未有系统同时很好地处理分析和OLTP任务 20MB文件） – 对联机分析必须提供标准编程接口，支持SQL/JDBC/ODBC等 • 高可扩展和高可用 – 用户程序查询数据不需要知道底层细节，比如数据分布细节 – 可以水平扩展 – 允许多台机器故障的场景下，业务不中断 Postgres Conference China 2016 中国用户大会原有方案：小型机+存储+Oracle • 成本高、扩展性差 – 价格昂贵 • 服务器采 NameNode节点 Zookeeper X 省客服系统 GGSN SGSN Gn口产创平台采集系统 Postgres Conference China 2016 中国用户大会某大规模HBase多用户服务平台 • Hadoop平台集群1135个节点，其中集群970，客户端165，总存储16PB，每日采集数据压缩后40TB，集群数据块4700万个 NN NN ZK+JN ZK+JN

0 码力 | 45 页 | 4.33 MB | 1 年前
3
HBase基本介绍

zookeeper作为协调信息存储的地⽅方, ⽐比如节点健康状态然后HBase的数据都要存放在hdfs上, 就要有node. 如图可以看出RegionServer和Datanode尽量量在同⼀一台机器器上. • ⽔水平按rowkey分开 region • Pre-split: 0-5 6-10 • Auto-split: size • 垂直按CF分开系统组成 Region offset> RowKey: Column Qualifier: 指定指标的所有数据指定指标指定时间的所有数据指定⼀一个服务器器所有指标? 内存使⽤用率 20190725 16 机器器号 2294 类似关系数据中建索引的时候, 最左前缀的原则 Schema设计 OpenTSDB 另⼀一种存指标数据的设计

0 码力 | 33 页 | 4.86 MB | 1 年前
3

共 2 条前往

页

HBase 最佳实践优化基本介绍

分类

语言

格式

HBase最佳实践及优化

HBase基本介绍