inode - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve文件系统元数据管理

2 of 24 1. 2. 3. 4. Inode 1、设计一个分布式文件系统需要考虑的点： 2、其他文件系统的调研总结 3、各内存结构体 4、curve文件系统的元数据内存组织 4.1 inode定义： 4.2 dentry的定义： 4.3 内存组织 5 元数据分片 5.1 分片方式一：inode和dentry都按照parentid分片 5.1.1 场景分析 /A/C到/B/E symbolic link： hardlink：生成一个hardlink /B/E，指向文件/A/C list：遍历/A目录 5.1.2 好处 5.1.2 问题 5.2 分片方式二：Inode按照inodeid进行分片，Dentry按照parentid进行分片 rename：rename /A/C到/B/E hardlink：生成一个hardlink /B/E，指向文件/A/C 6、curve文件系统的多文件系统的设计 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化

0 码力 | 24 页 | 204.67 KB | 6 月前
3
curvefs client删除文件和目录功能设计

Trash放在哪里？ 3. 是否需要做session机制（在metaserver打开），来维护inode的打开情况？方案设计 Trash机制： Session机制：遗留问题工作量评估背景目前curvefs client版本对删除unlink和rmdir的设计只有简单的删除inode和dentry结构，遗留了nlink和lookup count相关的内容还未实现，是不完备的。 << ", name = " << name; return ret; } // TODO(xuchaojie) : judge can inode be deleted ret = inodeManager_->DeleteInode(dentry.inodeid()); if (ret != CURVEFS_ERROR::OK) << ", parent = " << parent << ", name = " << name << ", inode = " << dentry.inodeid(); return ret; } return ret; } 存在两个问题: 一是删除时nlink字段未考虑：文件的nlink用于实现hard

0 码力 | 15 页 | 325.42 KB | 6 月前
3
CurveFS Client 概要设计

(void *userdata, struct fuse_conn_info *conn); 根据挂载信息，从mds获取文件系统信息（或superblock），块分配器（bitmap）和root inode所在的copyset、 metaserver ip等信息去metaserver获取文件系统信息（super block），缓存到client端。 destroy void (*destroy) req, fuse_ino_t parent, const char *name); 根据parent inode id和name从denty缓存中找到对应的denty结构；如果dentry缓存中不存在对应的inode，则从mds根据parent inode id获取parent inode 所在copyset，metaserver ip等信息，然后从metaserver获取denty（这里有两种方式，一种是只获取当前需要的 off, struct fuse_file_info *fi); 首先根据inode id 从缓存中查找到对应inode结构；如果inode缓存中不存在对应的inode，则从mds获取inode所在copyset，metaserver ip等信息，然后从metaserver获取inode结构，缓存之；判断inode结构中，对应请求[off, size]位置的空间是否有分配：如果未分配或只有部

0 码力 | 11 页 | 487.92 KB | 6 月前
3
CurveFS Copyset与FS对应关系

陈威增加详细设计 1、背景 2、chubaofs的元数据管理 2.1、meta partition的创建 2.2、meta partition的管理 2.3、meta partition和inode以及dentry的对应关系？ 3、curvefs的copyset和fs的对应关系 3.1 如何获取inodeid 3.2 copyset fs共用吗？ 3.3 copyset个数是否可以动态调整？ metaserver 子模块拆分 8、inode和dentry的内存估算 8.1 一台机器上能存放多少个inode和dentry 8.2 一台机器上建议的copyset数量 8.3 每个copyset建议管理存储容量的大小 1、背景 curvefs使用raft作为元数据一致性的保证。为了提高元数据的可扩展性和并发处理能力，采用元数据分片的方式管理inode和dentry的元数据。inode的分片依据是fsid 每个volume有若干meta partition和data partition。meta partition管理的元数据，data partition管理数据。meta partition管理inode和dentry信息。创建一个文件系统时，如何初始化meta partition？ master\cluster.go， chubaofs的文件系统使用volume的来表示，在创建一个文件系统的时候，会创建3个meta

0 码力 | 19 页 | 383.29 KB | 6 月前
3
CurveFS方案设计

扩展性/可用性/可靠性依赖于第三方kv存储，目前是etcd CurveFS 单机内存元数据设计类似 fastcfs 和 moosefs 的元数据设计方式，采用通用的 dentry，inode 两层映射关系，所有的元数据都缓存在内存中，持久化在 binlog 文件中，binlog采用定期dump的方式删除。基于这种方式的开发： a. 性能加载：数据量较大的情况下，元数据节点启动较慢；但是元数据使用 slave，slave 在内存中也缓存了全部元数据信息 master-slave 多副本数据 CurveFS 分布式元数据设计类似 chubaofs 的元数据设计方式，同样是采用 dentry，inode 两层映射关系，所有的元数据都缓存在内存中。元数据是分片的，使用 multi-raft 持久化元数据以及保证多副本数据一致性。基于这种方式开发： a. 性能由于元数据分片，获取元数据需要 CurveFS 近期要能支持mysql所要接口，长期需要支持通用文件接口。 kv 虽然改造简单，短期内对基本功能的支持没有问题，但这个架构不利于 Curve 长期的规划和演进，因此选择通用的 dentry，inode 两层映射的元数据结构。对于 fs© XXX Page 4 of 14 的场景，元数据的量比块存储场景会多很多，长期看元数据节点的设计也是需要满足高可用、高可扩、高可靠的。因此对元数据节点的

0 码力 | 14 页 | 619.32 KB | 6 月前
3
Curve支持S3 数据缓存方案

。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。元数据采用2层索引由于chunk大小是固定的（默认64M），所以Inode中采用map s3ChunkInfoMap用于保存对象存储的位置信息。采用2级索引的好处是，根据操作的offset可以快速定位到index，则只需些接口流程。这里不需要提供truncate接口，可以由client直接修改inode的len，由metaserver的碎片整理（马杰负责）模块进行truncate的无效数据清理后台刷数据线程© XXX Page 4 of 9 启动后台线程，将写Cache定时刷到S3上，同时通过inodeManager更新inode缓存中的s3InfoList。具体细节见本地磁盘缓存如果有配置writeBack 4; // file logic length required uint64 size = 5; // file size in object storage }; message Inode { required uint64 inodeId = 1; required uint32 fsId = 2; required uint64 length = 3;

0 码力 | 9 页 | 179.72 KB | 6 月前
3
CurveFs 用户权限系统调研

对mode的管理对ACL（Access Control Lists）的管理 ACL Access Entry保存在哪？ ACL的表示内存中的ACL 是如何与具体的 Inode 相关联如何存储和获取ACL信息 Inode权限校验 chmod、chown、setfacl、getfacl接口文件系统自己如何实现结论：参考文献：一、Curvefs测试代码：https://github 具备系统管理员root的权限的运维人员添加的，权限很小，一般用sudo管理提权用户和用户组的关系：一对一、一对多、多对一、多对多文件系统用户权限管理对mode的管理 uidgidmode message Inode { required uint64 inodeId = 1; required uint32 fsId = 2; required uint64 length = 3; 0xEF53 Filesystem revision #: 1 (dynamic) Filesystem features: has_journal ext_attr resize_inode dir_index filetype needs_recovery extent 64bit flex_bg sparse_super large_file huge_file dir_nlink

0 码力 | 33 页 | 732.13 KB | 6 月前
3
Open Flags 调研

以目录形式打开，如果pathname不是一个目录则会打开失败。 O_DIRECTORY : 。 O_NOFOLLOW 如果pathname是一个符号链接，则会打开失败（ELOOP） : 不更新Inode中的last access time（进程uid=文件uid或者进程在它的user namespace有CAP_FOWNER, 而文件的uid在这个namespace中有一个映射）。 O_NOATIME filesystem process. Valid replies: fuse_reply_open fuse_reply_err Parameters req request handle ino the inode number fi file information© XXX Page 7 of 23 open flags 在curvefs上的测试在现在的curvefs上进行open相关flag测试，发现已经支持部分open strace ./main ... open("dir", O_RDONLY|O_DIRECTORY) = 3 curvefsO_NOFOLLOW # O_NOFOLLOW curvefs inode mtime/atime/ctimeO_NOATIME # O_NOATIME O_PATH root@pubbeta1-nostest2:/tmp/fsmount$ strace ./main

0 码力 | 23 页 | 524.47 KB | 6 月前
3
NJSD eBPF 技术文档 - 0924版本

word_language_model • LOOKUP inode 返回 fstat + timeout设置 • OPEN 打开 inode返回ok • GETATTR 返回fstat • READ inode 读取的内容不等从16KB到128KB • 关闭⽂件时会发送FLUSH请求和RELEASE请求 • 场景2 解压压缩包场景 • LOOKUP inode 没有该inode • CREATE创建⽂件句柄并返回fstat CREATE创建⽂件句柄并返回fstat + timeout设置 • WRITE 写⼊内容从0～16KB不等 • SETATTR inode 根据UID，ATIME，CTIME，length来设置属性 • 关闭⽂件时会发送FLUSH请求和RELEASE请求FUSE⽂件IO读写流程FUSE的IO路径及瓶颈分析 • 对⽐测试 • ⽂件访问测试直接访问ext4 • 通过FUSE访问passthrough_ll底层ext4 调⽤底层ext4 • 进程共享内存通信延迟10us+ • others 开销 10us+ • fuse_ll_ops开销10us-基于FUSE的优化框架 • 框架优化的要点 • 共享inode cache • 共享data cache的映射 • GETATTR流程 • ⽂件读取流程 • 相关⼯作 • extFUSE • google android12 passthrough什么是eBPF

0 码力 | 20 页 | 7.40 MB | 6 月前
3
CurveFS S3数据整理(合并碎片、清理冗余)

数据整理作为一个后台服务(线程池), 运行于metaserver, 遍历metaserver的inode进行数据整理的尝试, 入队inodekey, 如果是已有inode任务, enqueue直接返回, 不入队任务开始执行, 尝试根据inodekey获取inode信息, 获取不到就退出; 不是s3类型的inode退出对于每一个s3类型的inode来说, 对每一个index内的chunkinfo按照chunkid升序排序增量的更新inode的s3chunkinfolist, 保证原子更新, 更新失败回退新增数据 - 等待N秒, 保证mds已经告知client缓存失效, 需要更新为新的s3chunkinfolist // 需不需要这个步骤@xuchaojie @chenwei确认 - 删除老的object 问题与风险在执行变更时, 在bcd步挂掉时, 会造成s3数据的残留当同时有多个变更inode元数据(s3chunkinfolist)的动作时当同时有多个变更inode元数据(s3chunkinfolist)的动作时, 目前的updateinode的实现是直接的覆盖, 如果数据整理和client写同时进行了同一个inode的变更, 总有一个变更会丢失,© XXX Page 3 of 3 2. 1. 2. 1. 2. 需要进行一个merge的步骤在做变更时如果有其他op可能会产生的冲突: 读: 在执行变更删除原来的s3 object时, 执

0 码力 | 3 页 | 101.58 KB | 6 月前
3

共 84 条前往

页

分类

语言

格式

Curve文件系统元数据管理

curvefs client删除文件和目录功能设计

CurveFS Client 概要设计

CurveFS Copyset与FS对应关系

CurveFS方案设计

Curve支持S3 数据缓存方案

CurveFs 用户权限系统调研

Open Flags 调研

NJSD eBPF 技术文档 - 0924版本

CurveFS S3数据整理(合并碎片、清理冗余)