类型声明空间 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve文件系统空间分配方案

1 of 11 Curve文件系统空间分配方案（基于块的方案，已实现）© XXX Page 2 of 11 背景本地文件系统空间分配相关特性局部性延迟分配/Allocate-on-flush Inline file/data 空间分配整体设计空间分配流程特殊情况空间回收小文件处理并发问题文件系统扩容接口设计 RPC接口空间分配器接口背景根据，文件系，文件系统基于当前的块进行实现，所以需要设计基于块的空间分配器，用于分配并存储文件数据。 CurveFS方案设计（总体设计，只实现了部分）本地文件系统空间分配相关特性局部性尽量分配连续的磁盘空间，存储文件的数据。这一特性主要是针对HDD进行的优化，降低磁盘寻道时间。延迟分配/Allocate-on-flush 在sync/flush之前，尽可能多的积累更多的文件数据块才进行空间分配，一方面可以提高局部性，另一方面可以降低磁盘碎片。几百字节的小文件不单独分配磁盘空间，直接把数据存放到文件的元数据中。针对上述的本地文件系统特性，Curve文件系统分配需要着重考虑。局部性虽然Curve是一个分布式文件系统，但是单个文件系统的容量可能会比较大，如果在空间分配时，不考虑局部性，inode中记录的extent数量很多，导致文件系统元数据量很大。© XXX Page 3 of 11 假如文件系统大小为1PiB，空间分配粒度为1Mi

0 码力 | 11 页 | 159.17 KB | 6 月前
3
CurveFS方案设计

补充元数据数据结构 2021-04-19 李小翠、吴汉卿、许超杰等补充文件空间分配，讨论与确认背景调研开源fs 性能对比可行性分析方案对比对比结论架构设计卷和文件系统元数据架构文件系统快照方案一：文件/目录级别快照方案二：文件系统快照关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支元数据管理的雏形，具备了基本的元数据管理功能。（当时为什么要设计为 namespace 的管理形式？留有租户这个概念），直接基于 namespace 开发： a. 功能软/硬链接：目前是都不支持的。软链接可以通过标识文件类型解决；由于 prefix + parentid + filename 作为 key , filename 直接和 fileInfo 关联，硬链接无法支持 b. 性能 list：list在通用文件系统中是很常见的操作，目前检查目的节点的父节点中是否有同名文件存在：存在若源节点类型为TYPE_DIRECTORY则对源节点目录下的所有子文件进行快照若源节点类型为TYPE_FILE则开始比较源节点与目的节点的 inode 是否相同，若完全一样则说明目的节点已经是源节点的快照了不需要做任何处理, 否则删除目的节点，再创建新的 dentry 指向源节点的 inode 若源节点类型为TYPE_SYMLINK，重新设置目的节点与源节点保持一致

0 码力 | 14 页 | 619.32 KB | 6 月前
3
CurveFS Copyset与FS对应关系

curve块设备的copyset是在空间预分配的时候就确定了，每次预分配1GB的空间，然后这1GB的空间每个chunk对应的copyset在预分配的时候已经确定。后续的读写的操作直接去对应的copyset上去进行读写。这个分配copyset方式，并不适合curvefs的元数据。这种分配方式是提前分配了一批空间，即使用户只需要写4KB数据，也一次性分配1GB的空间。而curvefs的元数据，并不能一 com/opencurve/curve/pull/495 增加copyset.proto 增加heartbeat.proto 增加topology.proto 8、inode和dentry的内存估算类型 byte sizeof(dentry) 56 dentry的name字段，按照最大估算 256 sizeof(inode) 112 sizeof(volumeExtentList) 48 inode大小：空的inode占用112 + 48 + 48 = 208B; 目录类型的inode占用208B； link类型的inode最大占用208 + 256 = 464B； volume file类型的inode，按照1w条extent估算，占用内存208 + 10000*56 = 560208B； s3 类型的inode，按照1w条s3info估算，占用内存208 + 10000*64

0 码力 | 19 页 | 383.29 KB | 6 月前
3
CurveFs 用户权限系统调研

问题1：root用户无法访问挂载目录测试 allow_root 测试allow_other 参考文献问题2：本地文件系统挂载默认是共享的？问题3：文件系统访问控制是在哪一层实现的？二、文件系统权限管理文件类型文件权限特殊权限(SUID, SGID, STICKY) 文件默认权限umask 用户&用户组文件系统用户权限管理对mode的管理对ACL（Access Control Lists）的管理 16 10:41 softlink -> file 文件类型文件类型标识文件类型 - 普通文件 d 目录文件 l 符号链接 s 套接字（伪文件） b 块设备（伪文件） c 字符设备（伪文件） p 管道（伪文件）文件权限文件权限分为三段：分别对应文件“属主权限”、“属组权限”、“其他用户权限” 权限标识权限类型 - 无权限 r 读权限4 w 写权限2 x 执行权限1 含有一系列的扩展属性。每一个属性由一个名字以及与之相关联的数据所表示。其中名字必须为一个字符串，并且必须有一个命名空间前缀标识符与一个点字符。目前存在有四种命名空间：用户命名空间、信任命名空间、安全命名空间以及系统命名空间。用户命名空间在命名或者内容上没有任何限制。系统命名空间主要被内核用于访问控制表上。目前Linux 的 ACL 存储实现就是基于这种扩展属性的。 Inode Table中保存有若干个

0 码力 | 33 页 | 732.13 KB | 6 月前
3
Curve文件系统元数据管理

inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结 fs 中心化元数据内存namespace元数据内存空间分配元数据元数据持久化元数据扩展小文件优化空间管理单位数据持久化其他© XXX Page 3 of 24 moosefs（mfs）有元数据服务器全内存 fsnode → hashtable(inode id) offset) etcd 差块设备，最小10GB segment + chunk raft 块设备的元数据管理 cephfs 3、各内存结构体时间复杂度空间复杂度特点可用实现 Btree 一个节点上保存多条数据，减少树的层次(4~5层)，方便从盘上读取数据，减少去盘上读取次数。适合在盘上和内存组织目录树。 google，https://github table O(1)~O(n) O(n) + table 需要占用额外空间，性能和hash表的大小有关，最理想可以达到O(1)复杂度，最差O(n)复杂度。 c++ stl unordered_map moose，使用c实现 4、curve文件系统的元数据内存组织 curve文件系统元数据主要有3个类型，inode， dentry，。 extent 4.1 inode定义：

0 码力 | 24 页 | 204.67 KB | 6 月前
3
Curve核心组件之snapshotclone

Task user 快照元数据 2.创建内部快照 5.删除内部快照快照数据 1.发起快照 SnapshotCloneServer 6.删除内部快照数据快照的元数据和数据组织字段类型说明 uuid string 快照唯一Id user string 所属用户 fileName string 快照目标卷名 snapshotName string 快照名 seqNum uint64_t SnapFile的命名方式为“chunk_” + ChunkId + “_snap_”+ seqNum的形式，以区别于 ChunkFile。CHUNKSERVER端快照实现-SNAPFILE 字段类型说明 version uint8_t 文件格式协议版本号 demaged bool 损坏标记 sn uint64_t 快照版本号 bits uint32_t 位图的位数 bitmap char[] 用户发起克隆，生成克隆任务，并持久化任务元数据到etcd，开始执行克隆任务。 • 2. 调用mds接口创建clone卷信息，该 clone卷是个临时卷，位于/clone目录下。 • 3. 调用mds接口为目的卷分配空间。 • 4. 根据目的卷的分配信息，调用 chunkserver接口创建CloneChunk。 • 5. 更新克隆卷状态为metaInstalled。 • 6. 发起ChunkServer数据拷贝

0 码力 | 23 页 | 1.32 MB | 6 月前
3
Curve设计要点

向上提供无差别文件流 • Application 块/对象/EC等感知具体格式提供不同文件类型支撑不同上层应用数据组织形式 • PageFile/AppendFile/AppendECFile • Segment • 逻辑概念，空间分配的基本单元（减少元数据数量） • 多个连续地址空间chunk（物理文件）的聚合数据组织形式 • CopySet • 逻辑概念 • 减少元数据数量 of Data Loss in Cloud Storage」数据组织形式 • PageFile • 地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力数据组织形式 • PageFile • 地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力 AppendFile • 地址空间到—>chunk: 1 : 1 • 采用append的方式写入数据组织形式 • AppendFile • 地址空间到—>chunk: 1 : 1 • 采用append的方式写入 • 支撑多副本对象存储通过文件/特殊目录隔离挖洞即时回收单独的元信息的存储方案数据组织形式 • AppendECFile • 地址空间到—>chunk: 1 : 1

0 码力 | 35 页 | 2.03 MB | 6 月前
3
新一代云原生分布式存储

Get、PUT、DEL 和其他扩展通常意义是支持 POSIX 接口传统意义的文件系统： Ext4 对指定地址空间进行随机读写传统意义的块存储：磁盘分布式存储的要素如何构建分布式文件系统？以分布式块存储为例。 •提供大容量的块设备 •可以在指定地址空间内随机读写 write(offset, len) •服务质量要求：数据不能丢、服务随时可用、弹性扩缩容要什么 •成百上千台存储节点续监控、错误检测、容错与自动恢复的能力以达到高可靠、高可用、高可扩分布式存储的要素要素拆解数据分布 —— 无中心节点/中心节点均衡地址空间的每段数据会分布在不同机器的磁盘上，如何找到这些数据？可靠性 & 可用性 —— 多副本/EC 服务不可用时间数据一致性 —— 一致性协议如何保证数据不丢？如何保证各种硬件故障的时候读 | 使用中的问题 Curve 架构简介 | 主要亮点 | 应用情况 FAQ 答疑架构简介 — 总体架构支持块存储、文件存储（多种存储后端）架构简介 — 概念介绍 Segment: 空间分配的基本单元 Chunk: 数据分片 Copyset: 复制组 ChunkServer: 管理一个磁盘进程架构简介 — 数据放置 Copyset的放置 Chunk的分配 • 由中心节点MDS以Scatter-width

0 码力 | 29 页 | 2.46 MB | 6 月前
3
Curve核心组件之mds – 网易数帆

本PageFile支持块设备、三副本AppendFile（待开发）支持在线对象存储、AppendECFile（待开发）支持近线对象存储可以共存。如上所示LogicalPool与pool为多对一的关系，一个物理pool可以存放各种类型的file。当然由于curve支持多个pool，可以选择一个logicalPool独享一个pool。通过结合curve的用户系统，LogicalPool可以通过配置限定特定user使用的方式，实现多个租户数据物理息，包括（更具体的信息可以查看curve/proto/nameserver2.proto）： • FileInfo: 文件的信息。 • PageFileSegment: segment是给文件分配空间的最小单位。 • PageFileChunkInfo: chunk是数据分片的最小单元。 segment 和 chunk的关系如下图:NAMESERVER Namespace的文件的目录层次关系如右图。会受到影响。引入CopySet，可提高分布式存储系统中的数据持久性，降低数据丢失的概率。COPYSET ChunkServer，Copyset和Chunk三者之间的关系如下图： Mds在分配空间时，轮流在不同的copyset中分配，每次从copyset中分配1个chunk，这个chunk用copysetId:chunkId来唯一标识。COPYSET Copyset的生成策略：Source

0 码力 | 23 页 | 1.74 MB | 6 月前
3
Curve文件系统元数据持久化方案设计

| checksum | +------+------------+-----+----------------+---------+----------+ 字段字节数说明 type 1 操作类型，共有以下 2 类： SET (0X01)：ADD 和 UPDATE 都可以转换成 SET 操作 DEL (0X02)：当为 DEL 操作时，value_length 和 value 则为空 key_length rehash 总耗时 1 秒，均摊给 100 个请求，那么每个请求只增加延时 10 毫秒），rehash 过程如下：哈希表渐进式 rehash 的详细步骤： (1) 为 ht[1] 分配空间, 让字典同时持有 ht[0] 和 ht[1] 两个哈希表 (2) 在字典中维持一个索引计数器变量 rehashidx, 并将它的值设置为 0, 表示 rehash 工作正式开始 (3) 在 rehash

0 码力 | 12 页 | 384.47 KB | 6 月前
3

共 23 条前往

页

分类

语言

格式

Curve文件系统空间分配方案

CurveFS方案设计

CurveFS Copyset与FS对应关系

CurveFs 用户权限系统调研

Curve文件系统元数据管理

Curve核心组件之snapshotclone

Curve设计要点

新一代云原生分布式存储

Curve核心组件之mds – 网易数帆

Curve文件系统元数据持久化方案设计