2022 Apache Ozone 的最近进展和实践分享陈怡 2022.07.29 ⽬录 • Apache Hadoop HDFS⾯临的问题 • Apache Ozone介绍 • Apache Ozone适⽤场景 • Apache Ozone的最近进展 • Apache Ozone的实践分享 ⼤数据存储的需求 能否提供⾼并发读取和写⼊ 是否兼容主流API,如HDFS/S3 是否可以扩展⾄数百PB的存储容量,数千个 物理节点以及数⼗亿个对象 应⽤对接 安全 加密 HDFS现有的⼀些解决⽅案 Namenode Federation Router Based Federation 是否需要⼀个新的⼤数据存储? 现有的对象存储⽅案 ⽆法很好的横向扩展 HDFS的扩展性 达到了上限 ⽆法接受私有化 的数据存储系统 公有云的对象存储服务 ⽆法在线下部署 ⽬录 • Apache Hadoop HDFS⾯临的问题 • Apache Ozone的最近进展 • Apache Ozone的实践分享 Apache Ozone • Ozone是 ⼀个分布式的KV对象存储 可扩展⾄数⼗亿个对象,从⽽对云原⽣类的应⽤更友好 强⼀致性 与HDFS 和 S3 API兼容 可在存储密集型设备中部署进⽽极⼤的减少设备开⽀ Apache Ozone – 数据存储的路径设计 Ozone的存储路径为 volumes, buckets, 和 keys0 码力 | 35 页 | 2.57 MB | 1 年前3
Ozone meetup Nov 10, 2022 Ozone User Group SummitINTEGRATION WITH BIG DATA WORKLOADS Support access control policy, lineage and governance Support HDFS and S3 API based applications Application Security Encryption Is the data protected at rest committer (Ozone, Ratis, Hadoop) 10 © 2022 Cloudera, Inc. All rights reserved. HISTORICAL MILESTONES HDFS-7240 Hadoop feature branch First hadoop-ozone commit lands 2015 Jun HDDS-1 2018 Apr Hadoop Apache Ozone as a top-level project 2020 Oct Cloudera GA Scale HDFS - 2x Initial Goal Storage Containers Native S3 , HCFS Scale HDFS - 10x New Goal 11 © 2022 Cloudera, Inc. All rights reserved.0 码力 | 78 页 | 6.87 MB | 1 年前3
Ozone:Hadoop 原生分布式对象存储Ozone,同时提供对象和文件访问的接 口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个 砖,介绍Ozone的产生背景,主要架构和功能。 如果想及时了解Spark、Hadoop或者HBase相关的文章,欢迎关注微信公众号:iteblog_hadoop 背景 HDFS是业界默认的大数据存储系统,在业界的大数据集群中有非常广泛的使用。HDFS集群有着 很高的稳定性,得益于它较简单的 据节点,保存上 百PB数据的集群也不鲜见。 HDFS通过把文件系统元数据全部加载到Namenode内存中,给客户端提供了低延迟的元数据访问 。由于元数据需要全部加载到内存,所以一个HDFS集群能支持的最大文件数,受JAVA堆内存的限 制,上限大概是4亿左右个文件。所以HDFS适合大量大文件(几百兆以上)的集群,如果集群中 有非常多的小文件,HDFS的元数据访问性能会受到影响。虽然可以通过各种Federation技术来扩 ation技术来扩 展集群的节点规模, 但单个HDFS集群仍然没法很好的解决小文件的限制。 基于这些背景,Hadoop 社区推出了新的分布式存储系统 Ozone,从构架上解决这个问题。 Ozone的设计原则 Ozone 由一群对大规模Hadoop集群有着丰富运维和管理经验的工程师和构架师设计和实现。他 们对大数据有深刻的洞察力,清楚的了解HDFS的优缺点,这些洞察力自始自终影响了Ozone的设0 码力 | 10 页 | 1.24 MB | 1 年前3
Performance of Apache Ozone on NVMeIO path. Ozone scales! Does background scale up and scale out? • Datanode count can scale beyond HDFS • No memory pressure on OM due to block reports/object counts/heap limitations • Container abstraction allows scaling of Datanodes and any background processing. • Much higher density per Datanode than HDFS Datanode scales out and scale up • Testbed used: • ~400 TB/Datanode • Tested with 200k containers TB per datanode • Cisco UCS S3260 • Extreme Capacity: 384 TB per datanode Ozone vs. HDFS Capability Ozone HDFS Storage Density 1000’s of nodes at 600TB per node 1000’s of nodes at 100TB per node0 码力 | 34 页 | 2.21 MB | 1 年前3
What's New In Apache Ozone 1.3Dropped “catelog_sales” table with sub- paths(files/dirs) count = 5K Query Completion Time (in sec) HDFS 0.572 Ozone With FSO Layout 0.854 Ozone With OBS Layout 12.219 Hive 删除表(Rename操作) ● FileSystem0 码力 | 24 页 | 2.41 MB | 1 年前3
Apache Ozone Erasure Coding(EC)like Yarn or Kubernetes. ➢ Ozone is strongly consistent and provides the benefits of traditional HDFS and S3 Object Store ➢ Scale to 1000’s of nodes with dense storage configurations ➢ Apache Spark0 码力 | 29 页 | 7.87 MB | 1 年前3
共 6 条
- 1













