配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Raft在Curve存储中的工程实践

点初始状态一致的时候，保证节点之间状态一致。 raft日志复制RAFT协议简介 raft配置变更 • 配置：加入一致性算法的服务器集合。 • 集群的配置不可避免会发生变更，比如替换宕机的机器。直接配置变更可能出现双主问题 • 共同一致（joint consensus） • 集群先切换到一个过渡的配置(old + new)，一旦共同一致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 • 日志会不断增长，占用空间 metaserver有两套存储引擎，基于memory和基于rocksdb。 Curve文件系统与Curve块存储的实现区别CURVE的RAFT配置变更心跳 • 通过心跳维持mds和chunkserver/metaserve的数据交互 • mds发起配置变更，copyset复制组执行 • 在curve自动容错和负载均衡时，需要进行raft配置变更。 • 自动容错保证常见异常（如坏盘、机器宕机）导存等资源的利用率最大化。 Curve块存储和文件存储的配置变更实现基本一致CURVE的RAFT配置变更异常场景下配置变更 • ReplicaSchedule • RecoverSchedule 均衡场景下配置变更 • CopySetSchedule • LeaderSchedule • RapidLeaderSchedulerCURVE的RAFT配置变更异常场景下配置变更 • ReplicaSchedule

0 码力 | 29 页 | 2.20 MB | 5 月前
3
Curve核心组件之mds – 网易数帆

多个pool，可以选择一个logicalPool独享一个pool。通过结合curve的用户系统，LogicalPool可以通过配置限定特定user使用的方式，实现多个租户数据物理隔离（待开发）。TOPOLOGY Topology的实际例子，右侧是topo配置文件：集群有一个物理pool，由3个zone组成，每个zone有1台server。在物理pool上，还创建了一个逻辑pool，逻辑pool使用3个zone，采用间的通信将会非常复杂，例如复制组内Primary给Secondary定期发送心跳进行探活，在256K个复制组的情况下，心跳的流量将会非常大；而引入CopySet的概念之后，可以以CopySet的粒度进行探活、配置变更，降低开销。 3. 提高数据可靠性：在数据复制组过度打散的情况下，在发生多个节点同时故障的情况下，数据的可靠性会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。COPYSET 通过上述信息的定期更新，作为schedule 模块进行均衡及配置变更的依据 • 通过chunkserver定期上报copyset的copyset的epoch，检测chunkserver的copyset与mds差异，同步两者的copyset信息 • 支持配置变更功能，在心跳回复报文中下发mds发起的配置变更命令，并在后续心跳中获取配置变更进度。HEARTBEAT MDS端：mds 端的心跳主要由三个部分组成：

0 码力 | 23 页 | 1.74 MB | 5 月前
3
Curve质量监控与运维 - 网易数帆

支持python关键字，灵活定义测试  完善的测试报告  完美兼容Jenkins ci  丰富的第三方库（ssh, paramiko, request等）用例设计原则  无需绑定特定环境，“随意拉起”  配置化（测试环境、测试负载定义）  控制用例时间（考虑一些折中方案）  Case独立性  Case通用性（兼顾curve、ceph等）  Tag规范(优先级、版本、运行时间)  最大化覆盖率（打乱操作顺序、随机 Curve使用开源的监控工具Prometheus采集监控指标，大致流程为： 1. 部署监控时，Curve根据集群信息生成配置文件，指定了 Prometheus的监控目标（包括Client、MDS、 ChunkServer、Etcd、物理节点等）。 2. Prometheus依据上述配置文件，发现相应服务。 3. Prometheus server以pull的方式，定期从Curve集群中 MDS Curve运维体系Curve运维特性易部署 • 批量配置、批量部署 • 操作简单易升级 • 客户端采用CS架构，升级只需重启服务，秒级影响 • MDS与ChunkServer支持滚动升级自治 • 自动均衡 • 自动故障恢复 27/33易部署准备安装包配置用户配置SSH 免密安装 ansible 配置Ansible 执行 ansible 确认集群状态

0 码力 | 33 页 | 2.64 MB | 5 月前
3
CurveFS Copyset与FS对应关系

t的能力*copyset的个数 = 这个metanode的的处理能力。通过合理的配置copyset的能力的，应该的可以避免一个机器上，有太多的copyset。结论：coypset由fs共用。具体的使用上，每一个copyset上，有一个可以由多少fs共用的限制。这个限制通过配置文件进行配置。用户挂载时可以通过参数配置是否独占copyset。原因是，为了避免fs独占copyset 带来的copyset数量过多影响性能的问题。 node。 client在系统初始化的时候，还需要起来一个后台线程，定期的检查每一个fs的copyset的状态，如果某一个fs的可以提供分配inode能力的copyset的个数小于规定的值（来自配置文件，默认3个），就为这个fs创建一个新的copyset。© XXX Page 12 of 19© XXX Page 13 of 19 6.4、open流程© XXX Page 14 of 19© 4、实现出现异常场景下的数据恢复，副本修复的调度。 7.3 metaserver端 1、需要提供copyset的创建功能 2、由copyset负责inode和dentry的管理 3、定期向mds上报心跳，并根据心跳结果执行配置变更 metaserver 子模块拆分 metaserver service：接受rpc请求 copyset：负责对元数据的持久化，主要是一致性协议raft的处理© XXX Page 18 of

0 码力 | 19 页 | 383.29 KB | 5 月前
3
Curve元数据节点高可用

但同时只有一个mds节点提供服务，称该提供服务的mds节点为主，等待节点为备；主节点的服务挂掉之后，备节点能启动服务，尽量减小服务中断的时间。需要解决的问题就是：如何确定主备节点。 2. 技术选型提供配置共享和服务发现的系统比较多，其中最为大家熟知的就是zookeeper和etcd, 考虑当前系统中mds有两个外部依赖模块，一是mysql，用于存储集群拓扑的相关信息；二是etcd，用于存储文件的元 GetTimeout ③使用Observe监控指定前缀的key的最小版本的变化情况。© XXX Page 19 of 30 1. 2. 1. 该部分涉及到的参数说明：参数说明当前配置 ElectionTimeout etcd集群leader选举的超时时间 3s LeaseTime mds当选leader之后，与etcd集群维持租约的过期时间租约的keepalive间隔为LeaseTime/3 为LeaseTIme 说明etcd server删除Leader/MDS1的时间在[0, LeaseTime]之间这种情况会导致[0, LeaseTime]时间内没有MDS提供服务。当前配置下, LeaseTime = GetTimeout，这种情况发生的概率极低，Lease在etcd新leader当选后没有失效，get也不应该超时 4.2.4.3 MDS1、MDS2、MDS3的租约全部过期©

0 码力 | 30 页 | 2.42 MB | 5 月前
3
CurveFs 用户权限系统调研

com/cw123/curve/tree/fs_s3_joint_debugging 环境：test2 1. 启动curvefs 手动创建curve卷，/etc/curve/client.conf中配置卷所在集群信息。启动服务&client挂载卷：bash startfs.sh start volume (挂载目录为/tmp/fsmount)© XXX Page 3 of 33 # wa allow-other'以允许相应用户有权访问该文件系统，如果挂载者不是root还需要在/etc/fuse.conf（/usr/local/etc/fuse.conf）中增加配置项“user_allow_other”（该配置项是无值的）。详见libfuse官方文档：https://github.com/libfuse/libfuse#security-implications # The file 1：前期可以先不自己实现权限管理，使用‘default_permissions’ 和 ‘allow_other’的mount option（如果是非root用户进行挂载还需要在/etc/fuse.conf中增加配置项‘user_allow_other’）启用内核基于mode的权限控制。 2：新建rootinode mode = 1777（原因是设置STICKY，避免普通用户对非自己所属文件的删除） 3：这

0 码力 | 33 页 | 732.13 KB | 5 月前
3
NJSD eBPF 技术文档 - 0924版本

相关⼯作 • extFUSE • google android12 passthrough什么是eBPF • ebpf是不同环境下内核配置，调试，监控⼯具 • map映射 • 验证器 • Hook • Helper api配置TCP Initial RTO • 场景内核4.12之前 initial RTO是⼀个常数1s • 应⽤类型BPF_PROG_TYPE_SOCK_OPS s • … • set_initial_rtoCurve的Cache模块 • 底层ext4⽂件系统作为cache • cache分为写cache与读cache，读/ 写cache独⽴配置 • 与底层⽂件关系 (filename, offset, len) = func (inodeid, offset, len) • 读cache流程 • 写cache流程基于inode

0 码力 | 20 页 | 7.40 MB | 5 月前
3
CurveFS S3本地缓存盘方案

硬盘中的数据异步上传到远端对象存储。方案设计© XXX Page 3 of 9 S3模块接收到写入后先写入写内存缓存页，如果满足持久化的条件后，那么则准备持久化。如果未配置本地硬盘作为写缓存，那么直接持久化到远端的对象存储；如果配置了本地硬盘作为写缓存，那么则尝试先写入本地硬盘写缓存目录。写本地硬盘缓存目录之前先判断缓存目录容量是否已达到阈值，如果已经达到阈值，那么则直接写入到远端对象存储；否 std::string CacheReadDir_;© XXX Page 8 of 9 }; 方案设计思考本地硬盘如何管理借用linux本地文件系统进行管理，存储进本地硬盘的内容以文件的形式来表现。配置一个目录用于本地硬盘的文件管理，对作为缓存盘的本地硬盘进行格式化并挂载到该目录(如果没有缓存盘，那一般而言就是系统盘本身了)。本地缓存盘的文件内容表示本地缓存盘存放的文件即是存储到对象存储中的对象。

0 码力 | 9 页 | 150.46 KB | 5 月前
3
CurveFS ChunkID持久化

ChunkIDGenerator对象的GenChunkID方法； ChunkIDGenerator 类构造函数初始化 init 函数：用于初始化或者更改 ChunkIdAllocatorImpl 的一些配置。但是这些配置不会立即生效，而是等到当前 chunkId池枯竭时才会生效。析构函数 GenChunkID 申请的chunkID池是否枯竭？是，使用 KVStorageClient 申请新的chunkid

0 码力 | 3 页 | 79.38 KB | 5 月前
3
TGT服务器的优化

作为LILO支持用户态的接口 • 如何评价LILO • 输出内核块设备I/O效率高 • 不利于把复杂的存储协议代码搬进内核，例如(curve, brpc, c++, protobuf 等) • TCMU多了一层转接，配置过程复杂，业界踩的坑不够多。 • TCMU的用户态代码会受到框架约束，不够灵活。iSCSI target 服务器 • TGT(STGT) • 比较久的历史，原来叫STGT，后来改成TGT • 纯用户态，不与内核绑定因为TEL线程只存取自己负责的target，不存取别的target，所以TEL线程不需要target list lock。 • 管理面是单线程，只有它遍历target list，没有需要互斥的情况。FIO性能测试（配置) • [global] • rw=randread • direct=1 • iodepth=128 • ioengine=aio • bsrange=16k-16k • runtime=60

0 码力 | 15 页 | 637.11 KB | 5 月前
3

共 17 条前往

页

分类

语言

格式

Raft在Curve存储中的工程实践

Curve核心组件之mds – 网易数帆

Curve质量监控与运维 - 网易数帆

CurveFS Copyset与FS对应关系

Curve元数据节点高可用

CurveFs 用户权限系统调研

NJSD eBPF 技术文档 - 0924版本

CurveFS S3本地缓存盘方案

CurveFS ChunkID持久化

TGT服务器的优化