可用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve元数据节点高可用

© XXX Page 1 of 30 Curve元数据节点高可用© XXX Page 2 of 30 1. 需求 2. 技术选型 3. etcd clientv3的concurrency介绍 3.1 etcd clientV3的concurrency模块构成 3.2 Campaign的流程 3.2.1 代码流程说明 3.2.2 举例说明Campagin流程 3.3 Observe的流程异常情况4：Etcd集群的follower节点异常 4.2.7 各情况汇总 1. 需求 mds是元数据节点，负责空间分配，集群状态监控，集群节点间的资源均衡等，mds故障可能会导致client端无法写入。因此，mds需要做高可用。满足多个mds, 但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。需要解决的问题就是：如何确定主备节点。熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元数据信息。而etcd可以用于实现mds高可用，没必要引入其他组件。使用etcd实现元数据节点的leader主要依赖于它的两个核心机制: TTL和CAS。TTL(time to live)指的是给一个key设置一个有效期，到期后key会被自

0 码力 | 30 页 | 2.42 MB | 6 月前
3
副本如何用CLup管理PolarDB

数据中心1 CLup管理节点1 clup-server 数据中心2 CLup管理节点2 clup-server 数据中心1 CLup管理节点2 高可用机制自动切换  数据一致性保证数据可用性  提供读写VIP  读写高可用读写分离  多个读库之间负载均衡负载均衡  读线性扩展  支持分库分表高扩展性写 VIP 读 VIP PG (Primary) (Primary) PG (Standby1) PG (Standby2) PG (Standby3) 数据同步复制写请求读请求应用层负载均衡器 CLup高可用及读写分离功能http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 Clup管理界面-性能监控http://www.csudata.com │中启乘数科技（杭州）有限公司数据赋能│价值创新 CLup的高可用需要VIP 操作系统：CentOS7.X 盘要求有路径：/dev/nvmeXnY  机器需求 4台虚拟机器或物理机 1台做CLup管理节点：内存大于2GB 3台做数据库节点：内存需要大于4GB，最好有反亲和性，即能分布在不同的物理机上以保证高可用性阿里云的环境中创建Polardb的方法共享盘使用阿里云自带的高性能Nvme盘，注意使用Nvme磁盘对可用区有要求：

0 码力 | 34 页 | 3.59 MB | 6 月前
3
CurveFS方案设计

list：list在通用文件系统中是很常见的操作，目前 curve 的元数据缓存使用的 lru cache，因此 list 只能依赖 etcd 的 range 获取方式。如果需要对 list 加速，需要新的缓存结构 c. 扩展性/可用性/可靠性依赖于第三方kv存储，目前是etcd CurveFS 单机内存元数据设计类似 fastcfs 和 moosefs 的元数据设计方式，采用通用的 dentry，inode 两层加载：数据量较大的情况下，元数据节点启动较慢；但是元数据使用 master-slave 可以降低 failover 情况下的加载时间 b. 扩展性/可用性/可靠性扩展性不够，受限于单机的内存和磁盘，只能纵向扩展可用性足够，由于是 master-slave 的方式，master 以同步方式调用 slave，slave 在内存中也缓存了全部元数据信息 master-slave 持久化元数据以及保证多副本数据一致性。基于这种方式开发： a. 性能由于元数据分片，获取元数据需要跟多个节点进行rpc的交互，因此性能相比单机要弱一些 b. 扩展性/可用性/可靠性使用 multi-raft, 扩展性、可用性和可靠性与元数据节点一致对比结论 CurveFS 近期要能支持mysql所要接口，长期需要支持通用文件接口。 kv 虽然改造简单，短期内对基本功能的支持没有问题，但这个架构不利于

0 码力 | 14 页 | 619.32 KB | 6 月前
3
新一代云原生分布式存储

•可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生有什么分布式存储系统需要满足接口需求，并且有持续监控、错误检测、容错与自动恢复的能力以达到高可靠、高可用、高可扩分布式存储的要素要素拆解数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如何找到这些数据？可靠性 & 可用性 —— 多副本/EC 服务不可用时间数据一致性 —— 一致性协议如何保证数据不丢？如何保证各种硬件故障的时候读写都正常？可扩展性 —— 和数据分布的方式相关所用容量都用完后，可以新增机器扩展容量分布式存储的要素 — 数据分布无中心节点：哈希算法 INPUT 写三次？一致性协议一致性：WARO（Write-all-read-one）、Quorum WARO • 所有副本写成功 • 读可用性高：可以读任一副本 • 写可用性较低，任一副本异常写失败 Quorum • 大多数副本写成功 • 读写服务可用性做一个折中 • 写性能提升，速度取决于写的较快的大多数 W R client W W W client分布式存储介绍 01

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve设计要点

新一代分布式存储系统 Curve 李小翠Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多，线上异常演练 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库：对数据增删改查基本架构 • 快照克隆服务器独立于核心服务储到支持S3接口的对象存储，不限制数量异步快照、增量快照从快照/镜像克隆 ( lazy/非lazy ) 从快照回滚数据组织形式 • 底层可用性 / 可靠性扩展性 / 负载均衡向上提供无差别文件流 • Application 块/对象/EC等感知具体格式提供不同文件类型支撑不同上层应用数据组织形式 • PageFil 4K随机写 4K随机读 38% 34.5% 测试环境：6台服务器*20块SATA SSD，E5-2660 v4，256G，3副本场景高可用核心组件支持多实例部署，允许部分实例异常 MDS、Snapshotcloneserver 通过 etcd 选主，实现高可用高可用 chunkserver 使用raft，2N + 1 个副本允许 N 副本异常自治 • 自动故障恢复 • 多对多，恢复时间短

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Curve核心组件之snapshotclone

增量转储，第一次全量转储s3之后，后续只需转储增量部分 • 高可用，快照任务中断自动拉起继续转储快照和克隆的特点 • 克隆的定义 • 克隆是指从卷复制出卷的功能，提供快速的复制卷的能力。 • 这里的克隆还包括从快照回滚的功能 • 克隆的特点 • 支持Lazy和非Lazy两种模式克隆 • 支持从快照克隆和从镜像（卷）克隆 • 支持从快照回滚 • 高可用，克隆任务中断自动拉起继续克隆快照克隆服务器架构 • 用户不可见。 Cloning: • 元数据安装成功； • Lazy方式下可见，用户可用； • 非Lazy不可见。 MetaInstalled: • 数据拷贝完成； • 可提供所有服务。 Cloned:LAZY 克隆 Lazy克隆较快，秒级克隆： MetaInstalled状态可用，即完成元数据安装，就从临时目录rename，用户可见。 Lazy Alloc Chunk，利于超售：时才分配chunk 额外接口：不进行数据复制，而是提供额外的Flatten接口，完成数据复制。适用场景：适用于从镜像快速创建云主机场景非Lazy克隆较慢，分钟级： Cloned状态可用，即完成整个数据克隆，才从临时目录rename，用户才可见。无Lazy Alloc chunk：安装元数据时即分配好chunk。无额外接口：无需Flatten接口。适用场景：

0 码力 | 23 页 | 1.32 MB | 6 月前
3
CurveFS Copyset与FS对应关系

partition和inode以及dentry的对应关系？© XXX Page 5 of 19 怎么确定inode和dentry于partition的对应关系？创建inode的时候，获取这个volume的所有的可用的（RW状态）meta partition，然后使用round robin的方式，遍历尝试去所有的partition中，直到找到一个partition可以创建inode。创建dentry，去parent ver。 curvefs的topo信息的层级最终是这样： →pool ：存储池（curve的physical pool和logic pool这里合并，只保留一个pool） →zone：可用域 →server：代表着一台服务器 →metaserver：代表着一块盘© XXX Page 9 of 19 每个copyset的由处于不同zone的metaserver组成复制组。 curvefs管理工具发起创建fs命令，mds收到createfs命令之后，在mds插入的一条fs记录，状态为NEW。然后为fs创建copyset，默认为3个。mds调用topology的接口找到3个可用的copyset，如果没有足够可用的cop yset，就创建新的copyset补齐。然后生成一条rootInode的记录，根据copyset的分片规则，在对应的copyset上插入一条rootinode的记录。最后修改fs状态为INITED。©

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve文件系统空间分配方案

，随机或者选择可用空间最大的extent分配出去。文件申请空间时，之前预分配块的剩余空间被其他文件占用。此时，首先从level1查找一个可用的块，不满足要求时，按情况1进行处理。 file1再次追加写入数据时，会附带32MiB来申请空间。此时，从level1中查找32MiB对应的块标记是否为0，如果为0，则将这个块继续分配给file1。否则，可以从level1中随机选择一个可用的块进行分配© XXX

0 码力 | 11 页 | 159.17 KB | 6 月前
3
Curve文件系统元数据持久化方案设计

持久化文件 key_value_pairs 其他说明实现 1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft 存在的问题？ redis 改造 vs 自己实现? redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示 sync，那么性能就会下降很多）所以，单靠 redis 的方案是不行了. redis 的高可用、高可扩方案？主要是 redis cluster + 主从复制 (或者第三方 codis + 哨兵) redis cluster/codis 主要解决扩展性的问题，它会进行分片，每个 redis 实例保存分片的 key 主从复制主要解决高可用，一个分片实例挂 2 个从实例，当主节点挂掉时，cluster/哨兵会自动将从节点升为主节点

0 码力 | 12 页 | 384.47 KB | 6 月前
3
Curve 分布式存储设计

延迟降低21% TPS提升26% 研究现状Curve块存储 1. 分布式块存储服务 2. KVM块存储服务 3. iSCSI协议 4. 容器云块存储(CSI) 应用场景Curve块存储 1. 高可用性/高可靠性 (易运维) 2. RAFT一致性协议 3. CopySet分配算法 4. 拓扑结构 5. 高性能 6. chunkfilepool (降低写放大) 7. data stripe

0 码力 | 20 页 | 4.13 MB | 6 月前
3

共 17 条前往

页

分类

语言

格式

Curve元数据节点高可用

副本如何用CLup管理PolarDB

CurveFS方案设计

新一代云原生分布式存储

Curve设计要点

Curve核心组件之snapshotclone

CurveFS Copyset与FS对应关系

Curve文件系统空间分配方案

Curve文件系统元数据持久化方案设计

Curve 分布式存储设计