CurveFS方案设计文件系统快照 方案一:文件/目录级别快照 方案二:文件系统快照 关键点 元数据设计 数据结构 索引设计 文件空间管理 开发计划及安排 背景 为更好的支持云原生的场景,Curve需要支持高性能通用文件系统,其中高性能主要是适配云原生数据库的场景。当前Curve是实现了块存储,向上提供块设备服务,CurveFS会基于此实现。第一阶段的目标是实现 满足数据库场景的文件接口。 调研 开源fs list:list在通用文件系统中是很常见的操作,目前 curve 的元数据缓存使用的 lru cache,因此 list 只能依赖 etcd 的 range 获取方式。如果需要对 list 加速,需要新的缓存结构 c. 扩展性/可用性/可靠性 依赖于第三方kv存储,目前是etcd CurveFS 单机内存元数据设计 类似 fastcfs 和 moosefs 的元数据设计方式,采用通用的 dentry,inode multi-raft, 扩展性、可用性和可靠性与元数据节点一致 对比结论 CurveFS 近期要能支持mysql所要接口,长期需要支持通用文件接口。 kv 虽然改造简单,短期内对基本功能的支持没有问题,但这个架构不利于 Curve 长期的规划和演进,因此选择通用的 dentry,inode 两层映射的元数据结构。对于 fs© XXX Page 4 of 14 的场景,元数据的量比块存储场景会多0 码力 | 14 页 | 619.32 KB | 6 月前3
CurveFs 用户权限系统调研GID(Group Identity) 超级用户: UID:0 默认是root用户,UID为0的用户为超级用户, 虚拟用户: UID:1~499 与真实普通用户区分开来,这类用户最大的特点是安装系统后默认就会存在,且默认情况大多数不能登录系统 普通用户: UID:500~65535 具备系统管理员root的权限的运维人员添加的,权限很小,一般用sudo管理提权 用户和用户组的关系: 一对一、一对多、多对一、多对多 在/etc/fuse.conf中增加配置项‘user_allow_other’)启用内核基于mode的权限控制。 2:新建rootinode mode = 1777(原因是设置STICKY,避免普通用户对非自己所属文件的删除) 3:这样达到的效果除了不支持ACL外与正常本地文件系统权限管理一致(一般情况下使用ACL极少,且从抓取的传媒接口调用发现并未涉及相关接口的调用)。 参考文献:0 码力 | 33 页 | 732.13 KB | 6 月前3
Curve文件系统元数据管理0多倍。但是这种方式,由于数据不能去全部缓存到内存,在查询元数据的时候,需要去盘上读数据,而且在文件系统这种使 用场景下,一次对文件的查找,需要在磁盘上读取多次。 我们的文件系统定位是一个高性能的通用文件系统,元数据的缓存倾向于全缓存。 系统加载的时候从持久化介质中进行加载,需要把一条条持久化的记录加载到内存里。实现把string转化为inode结构体,再插入内存结构中。 场景二:业务运行过程中,元数据的增删改查。 inode和dentry的组织是按照什么方式进行组织,还有一些因素需要考虑。 是mds节点上组成一个全局的结构体,还是分目录,按照一个目录进行组织。 这需要考虑的元数据管理的分片策略。当前curve文件系统目的是提供一个通用的文件系统,能够支持海量的文件,这就需要文件系统的元数据有扩展能力。元数据管理仅使用一台元数据管理服务器是不够的。使 用多台元数据服务器需要对元数据进行合理的分片。 当前的一个可行方案是按照ino0 码力 | 24 页 | 204.67 KB | 6 月前3
Curve设计要点多个存储软件:SDFS、NEFS、NBS • 已有的开源软件:Ceph • 不能胜任性能、延迟敏感的场景 • 异常场景抖动较大(比如慢盘场景) • 去中心节点设计在集群不均衡的情况下需要人工运维 • 基于通用分布式存储构建上层存储服务背景 01 02 03 04 总体设计 系统特性 近期规划基本架构 • 元数据节点 MDS 管理元数据信息 收集集群状态信息,自动调度基本架构 • 元数据节点0 码力 | 35 页 | 2.03 MB | 6 月前3
新一代云原生分布式存储应用程序 -> 文件系统 -> 块设备层 -> 不同协议/驱动使用中的问题 • io抖动(一致性协议): 异常场景(比如阵列卡一致性巡检,坏盘,慢盘,网络异常),服务升级 • 性能差(一致性协议):在通用硬件下,无法支撑数据库、kafka等中间件对存储性能和稳定性要求 • 容量不均衡(数据放置):集群各节点容量不均衡需要人为干预 • 上述问题和架构涉及、核心功能的选型有关,在已有开源版本上改进代价很大分布式存储介绍0 码力 | 29 页 | 2.46 MB | 6 月前3
Raft在Curve存储中的工程实践照。BRAFT简介 • raft协议提出之后,涌现出了非常多的实现,比如etcd,braft,tikv等。 • braft是raft的一个实现,实现了raft的一致性协议和复制状态机,而且提供了一种通用的基础库。基 于braft,可以基于自己的业务逻辑构建自己的分布式系统。 • braft本身不提供server功能,需要业务自己实现状态机。 Node(一个raft实例) int init(const0 码力 | 29 页 | 2.20 MB | 6 月前3
Curve核心组件之mds – 网易数帆• 定时任务由调度模块定时触发。 • 触发任务由外部触发,管理员通过工具触发。 • TopoAdapter 用于获取Topology中调度需要使用的数据。 • Common Strategy 是通用的副本添加和移除策略。 任务管理: 任务管理模块用于管理计算模块产生的任务。 • operatorController 是任务集合,用于存放和获取任务; • operatorStateUpdater0 码力 | 23 页 | 1.74 MB | 6 月前3
CurveFS Client 概要设计目前需细化Client端设计 CurveFS方案设计(总体设计,只实现了部分) 概述 CurveFS client 向上提供两层接口,分别是© XXX Page 3 of 11 对接fuse,提供通用文件系统接口。对于fuse接口,先前进行了一些调研,见FUSE调研 提供lib库,提供对接分布式数据库接口,这一部分,可参考polarfs的接口,如下图所示。 根据讨论,我们首先对接fuse的lowlevel0 码力 | 11 页 | 487.92 KB | 6 月前3
Curve质量监控与运维 - 网易数帆paramiko, request等) 用例设计原则 无需绑定特定环境,“随意拉起” 配置化(测试环境、测试负载定义) 控制用例时间(考虑一些折中方案) Case独立性 Case通用性(兼顾curve、ceph等) Tag规范(优先级、版本、运行时间) 最大化覆盖率(打乱操作顺序、随机 sleep) 精确性(checkpoint) 稳定性(避免环境因素、其他模块干扰)0 码力 | 33 页 | 2.64 MB | 6 月前3
Open Flags 调研统之间,当虚拟文件系统读文件时,首先从缓存中查找要读取的文件内容是否存在缓存中,如果存在就直接从缓存中读取。对文 件进行写操作时也一样,首先写入到缓存中,然后由操作系统同步到块设备(如磁盘)中。对于通用块设备层来说要求io请求是块设备blocksize对齐的,对应buffered io在pagecache层做了对齐,对应direct_io需要用户层来保证。© XXX Page 18 of 23© XXX0 码力 | 23 页 | 524.47 KB | 6 月前3
共 10 条
- 1













