HBase Read Path
HBase Read Path openinx@apache.org Abstract ❏ Client Side ❏ Server Side ❏ Tuning Part-1 Client Side HBase Client ClientScanner ClientScanner cache(queue) scanner.next() RegionServer-0 RegionServer-1 (old generation) ● Less mixed GC(s) and shorter STW time. End-to-end offheap on the read-path (HBASE-11425) BucketCache StoreFileScanner Copy the Block from BucketCache(offheap) to onheap. Rpc Handler accumulate multiple results until reach max result size even if reach batch limit ○ Related issue: HBASE-21206 ● BlockSize ? Part-3 Tuning Tuning ● Read Distribution ● Locality ● Short Circuit Read0 码力 | 38 页 | 970.76 KB | 1 年前3HBase Practice At Xiaomi
HBase Practice At Xiaomi huzheng@xiaomi.com About This Talk ● Async HBase Client ○ Why Async HBase Client ○ Implementation ○ Performance ● How do we tuning G1GC for HBase ○ CMS vs G1 ○ Tuning Tuning G1GC ○ G1GC in XiaoMi HBase Cluster Part-1 Async HBase Client Why Async HBase Client ? Request-1 Response-1 Request-2 Response-2 Request-3 Response-3 Request-4 Response-4 Request-1 66% Availability: 0% Why Async HBase Client ? ● Region Server / Master STW GC ● Slow RPC to HDFS ● Region Server Crash ● High Load ● Network Failure BTW: HBase may also suffer from fault amplification0 码力 | 45 页 | 1.32 MB | 1 年前3HBase Practice At XiaoMi
HBase Practice At XiaoMi tianjy1990@gmail.com openinx@apache.org Part-1 Problems In Practice Problems in XiaoMi ❏ Problem 1. How to satisfy the regular demand of scanning table without affecting analysis need to scan a large number of data from hbase ❏ They are executed by mapreduce or spark, that put a heavy burden on HBase Scan snapshot directly ❏ HBase already provides this feature: TableSnapshotInputFormat TableSnapshotInputFormat (ClientSideRegionScanner) ❏ Construct regions by snapshot files ❏ Read data without any HBase RPC requests ❏ Required READ access to reference files and HFiles Snapshot ACL ❏ HDFS ACL could0 码力 | 56 页 | 350.38 KB | 1 年前3HBase基本介绍
HBase基本介绍 ⽥田志鹏 20190714 上次分位点估算当时没解决的两个问题已更更新ppt. 今天讲的内容⽐比较基础, ⽽而且偏理理论, 因为我个⼈人也没有太多实际使⽤用经验, 纸上谈兵. Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable … 先来⼀一段HBase官⽹网的⾃自我介绍. blabla翻译⼀一下 重点看其中的红字, 什什么hadoop数据库 像redis是存kv结构的数据, MongoDB是存储⽂文档型数据, 那HBase存什什么样的数据? • ’表/⾏行行/列列’ • Row Key • ColumnFamily列列族 : ColumnQualifier列列限定名 • Version/Timestamp 分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离0 码力 | 33 页 | 4.86 MB | 1 年前3HBase最佳实践及优化
Postgres Conference China 2016 中国用户大会 HBase最佳实践及优化 陈飚 cb@cloudera.com Cloudera Postgres Conference China 2016 中国用户大会 关于我… 陈飚 Cloudera售前技术经理、资深方案架构师 http://biaobean.pro 原Intel Hadoop发行版核心开发人员, 成功实施并运维多 产品开发及方案顾问,先后负责Hadoop 产品 化、HBase 性能调优,以及行业解决方案顾问 2 Postgres Conference China 2016 中国用户大会 HBase的历史 2006年 Google发表 了BigTable 论文 2006年底由 PowerSet 的 Chad Walters和 Jim Kellerman 发起了HBase 项目,依据 BigTable的论文 重构关系数据 重构关系数据 库 2007年2月建立 了HBase的原型 版本 2007年10月建立 了第一个可用的 HBase版本 2008年成为 Apache Hadoop 的一个子项目 3 HBase是Google BigTable的开源实现 • BigTable利用GFS作为其文件存储系统 • HBase使用HDFS作为其文件存储系统 Postgres Conference China 20160 码力 | 45 页 | 4.33 MB | 1 年前3TiDB: HBase分布式事务与SQL实现
TiDB: HBase分布式事务与SQL实现 About me ● TiDB & Codis founder ● Golang expert ● Distributed database developer ● Currentlly, CEO and co-founder of PingCAP liuqi@pingcap.com https://github.com/pingcap/tidb com/pingcap/tidb weibo: @goroutine Agenda ● HBase introduction ● TiDB features ● Google percolator and omid ● Internals of TiDB over HBase Features of HBase ● Linear and modular scalability. ● Strictly side Filters ● MVCC What did they say ? “Nothing is hotter than SQL-on-Hadoop, and now SQL-on- HBase is fast approaching equal hotness status” Form HBaseCon 2015 We want more !0 码力 | 34 页 | 526.15 KB | 1 年前3HBASE-21879 Read HFile ’s Block into ByteBuffer directly.
HBASE-21879 Read HFile ’s Block into ByteBuffer directly. 1. Background For reducing the Java GC impact to p99/p999 RPC latency, HBase 2.x has made an offheap read and write path. The KV are allocated Case In above pictures, the p999 latency is almost the same as G1GC STW cost (~100ms). After HBASE-11425 , almost all memory allocations should be in the offheap, there should be rarely heap allocation As the basic idea part said, the first thing is to design a global ByteBuffAllocator. In HBASE-11425 , we have introduced an offheap memory management policy as following: 1. Set a max memory0 码力 | 18 页 | 1.14 MB | 1 年前3大数据时代的Intel之Hadoop
的和 安全的分布式架构 软硬结合 Intel Hadoop商业发行版 优化的大数据处理软件栈 稳定的企业级hadoop发行版 利用硬件新技术迚行优化 HBase改迚和创新,为Hadoop提供实时数据处理能力 针对行业的功能增强,应对丌同行业的大数据挑戓 Hive 0.9.0 交互式数据仓库 Sqoop 1.4.1 关系数据ETL工具 2.2 安装、部署、配置、监控、告警和访问控制 Zookeeper 3.4.4 分布式协作服务 Pig 0.9.2 数据流处理语言 Mahout 0.6 数据挖掘 HBase 0.94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 HDFS 1.0.3 分布式文件系统 R 统计语言 Intel Hadoop Manager E5 CPU, 48GB内存,8块 7200rpm SATA硬盘, 千兆以太网 测试用例和性能 向HBase集群插入1KB大小的记录 每台服务器平均每秒插入1万条记录,峰值在2万条记录 每台服务器,从磁盘扫描数据,每秒完成400个扫描。 一次扫描从HBase表中获得单个用户一个月内的所有记录(平均100条) 0 0.2 0.4 0.6 0.8 1 ren0 码力 | 36 页 | 2.50 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
198 198 198 200 201 201 202 202 202 203 203 203 203 203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 外部表迁移数据 UCloud 优刻得 189/206 PXF 扩展 扩展 在 5.17 及以上版本的 Udw 集群中默认安装了 PXF 扩展服务,Udw 集群可以通过 PXF 服务访问 HDFS, Hive, HBase 等外部数据,具体使⽤可以查询对应版本的 GreenPlum PXF 官 ⽅⽂档。 使⽤ PXF 服务访问外部数据时,需要进⾏⼀些有关外部数据的配置,我们在控制台提供了配置上传的功能。如果需要访问 core- site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml 配置⽂件,如果还需要额外访问 Hive 或者 HBase 数据,则需要上传 hive-site.xml 或者 hbase-site.xml 配置⽂件。 因为配置⽂件中⼀般以域名/主机名表⽰各节点的访问地址,所以还需要额外上传包含 Hadoop 集群各节点的域名/主机名与 IP 对应关系的0 码力 | 206 页 | 5.35 MB | 1 年前3Hadoop开发指南
/root/hive/conf/hive-env.sh #tez scp -r root@master_ip:/home/hadoop/tez /root/ #hbase scp -r root@master_ip:/home/hadoop/hbase /root/ #spark scp -r root@master_ip:/home/hadoop/spark /root/ #pig scp -r export HIVE_HOME=/root/hive export HIVE_CONF_DIR=$HIVE_HOME/conf # HBase export HBASE_HOME=/root/hbase export HBASE_CONF_DIR=$HBASE_HOME/conf # spark export SPARK_HOME=/root/spark export SPARK_CO PIG_CLASSPATH=$HADOOP_HOME/conf export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$HIVE_HOME/bin:$HBASE_HOME/bin:$SPARK_HOME/bin:$PIG_HOME/bin:$PATH export LD_LIBRARY_PATH=$HADOOP_HOME/lib/native:/usr0 码力 | 12 页 | 135.94 KB | 1 年前3
共 170 条
- 1
- 2
- 3
- 4
- 5
- 6
- 17