HBase Read PathHBase Read Path openinx@apache.org Abstract ❏ Client Side ❏ Server Side ❏ Tuning Part-1 Client Side HBase Client ClientScanner ClientScanner cache(queue) scanner.next() RegionServer-0 RegionServer-1 (old generation) ● Less mixed GC(s) and shorter STW time. End-to-end offheap on the read-path (HBASE-11425) BucketCache StoreFileScanner Copy the Block from BucketCache(offheap) to onheap. Rpc Handler accumulate multiple results until reach max result size even if reach batch limit ○ Related issue: HBASE-21206 ● BlockSize ? Part-3 Tuning Tuning ● Read Distribution ● Locality ● Short Circuit Read0 码力 | 38 页 | 970.76 KB | 1 年前3
HBase Practice At XiaomiHBase Practice At Xiaomi huzheng@xiaomi.com About This Talk ● Async HBase Client ○ Why Async HBase Client ○ Implementation ○ Performance ● How do we tuning G1GC for HBase ○ CMS vs G1 ○ Tuning Tuning G1GC ○ G1GC in XiaoMi HBase Cluster Part-1 Async HBase Client Why Async HBase Client ? Request-1 Response-1 Request-2 Response-2 Request-3 Response-3 Request-4 Response-4 Request-1 66% Availability: 0% Why Async HBase Client ? ● Region Server / Master STW GC ● Slow RPC to HDFS ● Region Server Crash ● High Load ● Network Failure BTW: HBase may also suffer from fault amplification0 码力 | 45 页 | 1.32 MB | 1 年前3
HBase Practice At XiaoMiHBase Practice At XiaoMi tianjy1990@gmail.com openinx@apache.org Part-1 Problems In Practice Problems in XiaoMi ❏ Problem 1. How to satisfy the regular demand of scanning table without affecting analysis need to scan a large number of data from hbase ❏ They are executed by mapreduce or spark, that put a heavy burden on HBase Scan snapshot directly ❏ HBase already provides this feature: TableSnapshotInputFormat TableSnapshotInputFormat (ClientSideRegionScanner) ❏ Construct regions by snapshot files ❏ Read data without any HBase RPC requests ❏ Required READ access to reference files and HFiles Snapshot ACL ❏ HDFS ACL could0 码力 | 56 页 | 350.38 KB | 1 年前3
HBase基本介绍HBase基本介绍 ⽥田志鹏 20190714 上次分位点估算当时没解决的两个问题已更更新ppt. 今天讲的内容⽐比较基础, ⽽而且偏理理论, 因为我个⼈人也没有太多实际使⽤用经验, 纸上谈兵. Apache HBase™ is the Hadoop database, a distributed, scalable, big data store. Use Apache HBase™ clusters of commodity hardware. Apache HBase is an open-source, distributed, versioned, non-relational database modeled after Google's Bigtable … 先来⼀一段HBase官⽹网的⾃自我介绍. blabla翻译⼀一下 重点看其中的红字, 什什么hadoop数据库 像redis是存kv结构的数据, MongoDB是存储⽂文档型数据, 那HBase存什什么样的数据? • ’表/⾏行行/列列’ • Row Key • ColumnFamily列列族 : ColumnQualifier列列限定名 • Version/Timestamp 分数:语⽂文 数据模型 逻辑视图 整个HBase和关系数据库很像, 但⼜又要时时注意两者的区别. 右⾯面我继续以⼀一次考试学⽣生分数距离0 码力 | 33 页 | 4.86 MB | 1 年前3
HBase最佳实践及优化Postgres Conference China 2016 中国用户大会 HBase最佳实践及优化 陈飚 cb@cloudera.com Cloudera Postgres Conference China 2016 中国用户大会 关于我… 陈飚 Cloudera售前技术经理、资深方案架构师 http://biaobean.pro 原Intel Hadoop发行版核心开发人员, 成功实施并运维多 产品开发及方案顾问,先后负责Hadoop 产品 化、HBase 性能调优,以及行业解决方案顾问 2 Postgres Conference China 2016 中国用户大会 HBase的历史 2006年 Google发表 了BigTable 论文 2006年底由 PowerSet 的 Chad Walters和 Jim Kellerman 发起了HBase 项目,依据 BigTable的论文 重构关系数据 重构关系数据 库 2007年2月建立 了HBase的原型 版本 2007年10月建立 了第一个可用的 HBase版本 2008年成为 Apache Hadoop 的一个子项目 3 HBase是Google BigTable的开源实现 • BigTable利用GFS作为其文件存储系统 • HBase使用HDFS作为其文件存储系统 Postgres Conference China 20160 码力 | 45 页 | 4.33 MB | 1 年前3
TiDB: HBase分布式事务与SQL实现TiDB: HBase分布式事务与SQL实现 About me ● TiDB & Codis founder ● Golang expert ● Distributed database developer ● Currentlly, CEO and co-founder of PingCAP liuqi@pingcap.com https://github.com/pingcap/tidb com/pingcap/tidb weibo: @goroutine Agenda ● HBase introduction ● TiDB features ● Google percolator and omid ● Internals of TiDB over HBase Features of HBase ● Linear and modular scalability. ● Strictly side Filters ● MVCC What did they say ? “Nothing is hotter than SQL-on-Hadoop, and now SQL-on- HBase is fast approaching equal hotness status” Form HBaseCon 2015 We want more !0 码力 | 34 页 | 526.15 KB | 1 年前3
HBASE-21879 Read HFile ’s Block into ByteBuffer directly.HBASE-21879 Read HFile ’s Block into ByteBuffer directly. 1. Background For reducing the Java GC impact to p99/p999 RPC latency, HBase 2.x has made an offheap read and write path. The KV are allocated Case In above pictures, the p999 latency is almost the same as G1GC STW cost (~100ms). After HBASE-11425 , almost all memory allocations should be in the offheap, there should be rarely heap allocation As the basic idea part said, the first thing is to design a global ByteBuffAllocator. In HBASE-11425 , we have introduced an offheap memory management policy as following: 1. Set a max memory0 码力 | 18 页 | 1.14 MB | 1 年前3
Apache Cassandra 快速入门指南(Quick Start)Cassandra 可以在 Linux、Unix、Mac OS 以及 Windows 上进行安装,为了简便起见,本文以 CentOS 为例进行介绍。 如果想及时了 解Spark、Hadoop或者Hbase相关的文章,欢迎关注微信公共帐号:iteblog_hadoop 下载、安装并启动 Cassandra 因为本文只是简单介绍 Apache Cassandra 的使用,所以本文仅安装单机版的 Cassandra,在生 的子集。为了使用 CQL ,可以使用下面命令: [iteblog@www.iteblog.com apache-cassandra-3.11.4]# bin/cqlsh Connected to Test Cluster at 127.0.0.1:9042. [cqlsh 5.0.1 | Cassandra 3.11.4 | CQL spec 3.4.4 | Native protocol v4] Use HELP Cassandra 服务,所以 cqlsh 可以正确连接到这个集群。从上面的命令可以看出 cqlsh 连接到名为 Test Cluster 的集群,这是由 conf/cassandra.yaml 文件里面的 cluster_name 参数决定的,默认值为 Test Cluster。 当然,我们也可以在启动 cqlsh 的时候指定节点和相应的端口,如下: [iteblog@www.iteblog.com0 码力 | 11 页 | 0 Bytes | 1 年前3
TiDB 开源分布式关系型数据库主要特点: 通过 tiup playground 一键运行一个本地 TiDB 集群, 可以让用户快速上手 TiDB 尝鲜,同时也为开 发者提供了极大的便利运行测试集群 。 通过 tiup cluster 组件快速部云、.升级,扩缩容,配置变更 On-Premise 部署的TiDB 生产集群。 。 可以通过 tiup dm 组件快速部署、升级,扩缩容\配置变更 On-Premise 部署的 DM 提供灵活的在线扩展能力。 数据库选型 *。 ”MYSQL 分库分表与 InnoDB Cluster 方案扩展性有限, 性能受损, 同时要修改业务端的代码, 复杂度 较高; *。 MongoDB 不能实时从 Binlog 同步数据, 不适合使用 SQL 语义; *。 ”Hive 不便于做增量更新; *。 Phoenix on HBase 的索引变更与维护比较困难, 聚合查询的效率不高; *。 CRDB 兼容0 码力 | 58 页 | 9.51 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商198 198 198 200 201 201 202 202 202 203 203 203 203 203 204 205 206 访问 Hive 访问 HBase 使⽤ 使⽤ pg_dump 迁移数据 迁移数据 安装 greenplum-db-clients 使⽤ pg_dump 导出数据 使⽤ psql 重建数据 利⽤ 利⽤ hdfs 外部表迁移数据 UCloud 优刻得 189/206 PXF 扩展 扩展 在 5.17 及以上版本的 Udw 集群中默认安装了 PXF 扩展服务,Udw 集群可以通过 PXF 服务访问 HDFS, Hive, HBase 等外部数据,具体使⽤可以查询对应版本的 GreenPlum PXF 官 ⽅⽂档。 使⽤ PXF 服务访问外部数据时,需要进⾏⼀些有关外部数据的配置,我们在控制台提供了配置上传的功能。如果需要访问 core- site.xml, hdfs-site.xml, mapred-site.xml, yarn-site.xml 配置⽂件,如果还需要额外访问 Hive 或者 HBase 数据,则需要上传 hive-site.xml 或者 hbase-site.xml 配置⽂件。 因为配置⽂件中⼀般以域名/主机名表⽰各节点的访问地址,所以还需要额外上传包含 Hadoop 集群各节点的域名/主机名与 IP 对应关系的0 码力 | 206 页 | 5.35 MB | 1 年前3
共 249 条
- 1
- 2
- 3
- 4
- 5
- 6
- 25













