Ozone meetup Nov 10, 2022 Ozone User Group Summit
/ 51 Confidential—Restricted Nov 10, 2022 Ozone User Group Summit / 51 2 Confidential—Restricted / 51 THE HYBRID DATA COMPANY We believe that data can make what is impossible today, possible tomorrow Lakehouse Data Fabric Data Mesh SDX Multi-cloud & on-premises data management and analytics Ozone / 51 5 Confidential—Restricted BIG DATA STORAGE REQUIRES ... Can it handle large workloads Does Encryption Is the data protected at rest and in-transit? / 51 7 Confidential—Restricted Apache Ozone Scalable, redundant distributed object store Designed for data applications to store structured0 码力 | 78 页 | 6.87 MB | 1 年前3Performance of Apache Ozone on NVMe
Performance of Apache Ozone on NVMe Wei-Chiu Chuang (jojochuang) Ritesh Shukla (kerneltime) Agenda • Overview of how Ozone and how it scales • Why NVME is important for Ozone for scaling • Benefits improvements results from NVME clusters • Summary • Questions Ozone Architecture Why does Ozone Scale? Separation of concerns Ozone Manager Ozone Client Datanode Storage Container Manager Recon Foreground Background No background load Datanode Datanode Datanode hadoop-hdds hadoop-ozone Scale out No foreground load Why does Ozone Scale? Aggregation via containers Chunks Chunks Chunks Blocks User Chunks0 码力 | 34 页 | 2.21 MB | 1 年前3Apache Ozone Erasure Coding(EC)
Apache Ozone Erasure Coding(EC) The Modern Big Data Object Store with More Than 50% Storage Space Savings Uma Maheswara Rao Gangumalla Sr. Engineering Manager, Cloudera Inc Stephen O’Donnell Sr. Staff Committee(PMC) Member ❏ Apache Ozone PMC Member ❏ Apache Incubator PMC ❏ Mentored several projects at Incubator ❏ ApacheCon Big Data track chair - 2021, 2022 What is Ozone? ➢ Apache Ozone is a distributed, scalable store ➢ Ozone is designed and optimized for Big Data workloads. ➢ Ozone can scale up to billions of objects and work effectively in containerized environments like Yarn or Kubernetes. ➢ Ozone is strongly0 码力 | 29 页 | 7.87 MB | 1 年前3What's New In Apache Ozone 1.3
What’s new in Apache Ozone 1.3 陈怡 Apache Ozone PMC 主席 3 ⽬录 I. Ozone 构架 II. Ozone 1.3 新功能 III. 未来展望 4 Ozone 构架 5 Ozone 1.3 新功能 I. 纠删码(Erasure coding) II. 系统均衡器(Container Balancer) III RS(6,3) 3 67% EC RS(10, 4) 4 71% EC RS(3,2) 2 60% 以计算为代价,满⾜数据可靠性的同时, 降低数据存储成本 数据可靠性 vs. 存储效率 7 Ozone条带纠删码 I. 物理块:每个DN磁盘上的数据块,默认256MB II. 逻辑EC块:满⾜EC策略的⼀个⽤户数据块。例如RS-3-2,⼀个逻辑块3*256MB⼤⼩ III. 条带:条带的默认粒度1MB,可配置 0 11 Ozone⽀持的纠删码策略 I. 内建⽀持的策略 I. RS-3-2-1024K II. RS-6-3-1024K III.XOR-2-1-1024K II. 可定制新的策略 III.策略设置⽀持 I. 全局策略设置 II. 桶级别策略设置 III.对象/⽂件级别策略设置 12 Container Balancer 时机 I. 新的节点加⼊Ozone集群 II. 删除⼤量数据后0 码力 | 24 页 | 2.41 MB | 1 年前32022 Apache Ozone 的最近进展和实践分享
Apache Ozone 的最近进展和实 践分享 刘岩 陈怡 2022.07.29 ⽬录 • Apache Hadoop HDFS⾯临的问题 • Apache Ozone介绍 • Apache Ozone适⽤场景 • Apache Ozone的最近进展 • Apache Ozone的实践分享 ⼤数据存储的需求 能否提供⾼并发读取和写⼊ 是否兼容主流API,如HDFS/S3 公有云的对象存储服务 ⽆法在线下部署 ⽬录 • Apache Hadoop HDFS⾯临的问题 • Apache Ozone介绍 • Apache Ozone适⽤场景 • Apache Ozone的最近进展 • Apache Ozone的实践分享 Apache Ozone • Ozone是 ⼀个分布式的KV对象存储 可扩展⾄数⼗亿个对象,从⽽对云原⽣类的应⽤更友好 强⼀致性 与HDFS 与HDFS 和 S3 API兼容 可在存储密集型设备中部署进⽽极⼤的减少设备开⽀ Apache Ozone – 数据存储的路径设计 Ozone的存储路径为 volumes, buckets, 和 keys. Volumes 类似与⽤户账号. 只有Admin 可以创建或删除Volumes Buckets 类似与S3 的 Buckets, ⼀个Buckets中可以包含任意多个Key,但不能包含其 他Buckets0 码力 | 35 页 | 2.57 MB | 1 年前3Ozone:Hadoop 原生分布式对象存储
Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com Ozone:Hadoop 原生分布式对象存储 Hadoop 社区推出了新一代分布式Key-value对象存储系统 Ozone,同时提供对象和文件访问的接 口,从构架上解决了长久以来困扰HDFS的小文件问题。本文作为Ozone系列文章的第一篇,抛个 砖,介绍Ozone的产生背景,主要架构和功能。 。 基于这些背景,Hadoop 社区推出了新的分布式存储系统 Ozone,从构架上解决这个问题。 Ozone的设计原则 Ozone 由一群对大规模Hadoop集群有着丰富运维和管理经验的工程师和构架师设计和实现。他 们对大数据有深刻的洞察力,清楚的了解HDFS的优缺点,这些洞察力自始自终影响了Ozone的设 计和实现。Ozone的设计遵循一下原则: / 10 Ozone:Hadoop 原生分布式对象存储 Spark大数据博客 - https://www.iteblog.com 强一致性 构架简洁性: 当系统出现问题时,一个简单的架构更容易定位,也容易调试。Ozone尽可能的保持架构 的简单,即使因此需要可扩展性上做一些妥协。但是在Ozone在扩展性上绝不逊色,目标 是支持单集群1000亿个对象。 构架分层 Ozone 采用分层的文件系统。Namespace0 码力 | 10 页 | 1.24 MB | 1 年前32021 中国开源年度报告
apache/iotdb 1255.1558471370900 900 9 apache/iotdb 3691 244 1577 2628 1395 10 apache/ozone 1097.2327026122800 298 10 apache/ozone 2897 0 1062 4130 900 11 apache/incubator-kyuubi 622.060165093585 675 11 apache/incubator- apache/iotdb 1255.1558471370900 900 9 apache/iotdb 3691 244 1577 2628 1395 10 apache/ozone 1097.2327026122800 298 10 apache/ozone 2897 0 1062 4130 900 11 apache/incubator-kyuubi 622.060165093585 675 11 apache/incubator- apache/incubator- pegasus 110 65 108 240 97 58 apache/echarts 工作时间分布打孔图 apache/skywalking 工作时间分布打孔图 apache/ozone 工作时间分布打孔图 2021 中国开源年度报告 59 60 5 CNCF 中国项目活跃度分析 Top20 repo_name activity_score actor_num repo_name0 码力 | 132 页 | 14.24 MB | 1 年前32020 中国开源年度报告
PetaBytes 数据快⼀个数量级。 apache/incubator-teaclave,⼀个开源的通⽤安全计算平台,使对隐私敏感的数 据的计算安全且简单。 apache/hadoop-ozone,Ozone 是适⽤于 Hadoop 的可扩展、冗余和分布式对象存储。 在上述三个项⽬中,carbondata 明显不在 UTC+8 时区,⽽在 UTC+4、5 时区,这是因为 其主要维护者 Ravindra 是印度⼈,与时区匹配;teaclave 的时间分布则完全是美国时 间,中国⽩天⼏乎都是静默期,虽然是百度捐献的项⽬,但其维护者 Mingshen Sun 其实位于 美国⻄海岸,⽽⾮国内;相⽐⽽⾔,hadoop-ozone 明显是全球化做的最好的⼀个项⽬。 4、案例分析——CNCF 4.1 简介 CNCF 全称为云原⽣计算基⾦会(Cloud Native Computing Foundation),是 Linux0 码力 | 46 页 | 4.09 MB | 1 年前32021 中国开源年度报告
apache/rocketmq 1289.296138641670 4935 2508 9 apache/iotdb 1255.1558471370900 900 3691 10 apache/ozone 1097.2327026122800 298 2897 11 apache/incubator-kyuubi 622.060165093585 675 2910 12 a apache/skywalking 工作时间分布打孔图 apache/skywalking Punch Chart for Work Time Distribution apache/ozone 工作时间分布打孔图 apache/ozone Punch Chart for Work Time Distribution 【专家点评】[Expert Comment] 五、 CNCF 中国项目活跃度分析 件基金会 易观 2021/4/8 2021/4/8 Apache ECharts Apache 软 件基金会 百度 2018/1/18 2020/12/16 Apache Ozone Apache 软 件基金会 原 Hadoop 子项目 2018/11/22 2020/10/21 Apache IoTDB Apache 软 件基金会 清华大学0 码力 | 199 页 | 9.63 MB | 1 年前3Adventures with Legacy Codebases: Tales of Incremental Improvement
big is the universe? 15 Millions Lines of C/C/Objective-C 670,000 Lines Product Code ● Ozone ● RX ● Neutron ● Nectar ● etc. 1.33 Million Lines Shared Code ● iZBase ● iZDSPBase ● Glass0 码力 | 77 页 | 4.34 MB | 5 月前3
共 48 条
- 1
- 2
- 3
- 4
- 5