安全调用符 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

CurveFs 用户权限系统调研

root@pubbeta1-nostest2:/tmp# cd fsmount bash: cd: fsmount: Permission denied© XXX Page 4 of 33 查阅资料发现这是fuse的一种安全策略，默认是只有filesystem owner拥有该文件系统的访问权限，如果想要其他用户有权访问，需要在挂载参数中指定‘-o allow-root’ 或'-o allow-other'以允许相应用访问控制列表（ACL 或 POSIX ACL）是多用户系统的。与基本的 POSIX RWX 位相比，POSIX ACL 有助于对文件系统权限进行的控制。可以针对用户（User）、群组（Group）附加安全控制功能更灵活、更细粒度、默认属性掩码（umask）进行设置。 ACL是Linux系统权限额外支持的一项功能，需要文件系统的支持，例如：ReiserFS , EXT2 , EXT3 , EXT4 详见） man xattr 含有一系列的扩展属性。每一个属性由一个名字以及与之相关联的数据所表示。其中名字必须为一个字符串，并且必须有一个命名空间前缀标识符与一个点字符。目前存在有四种命名空间：用户命名空间、信任命名空间、安全命名空间以及系统命名空间。用户命名空间在命名或者内容上没有任何限制。系统命名空间主要被内核用于访问控制表上。目前Linux 的 ACL 存储实现就是基于这种扩展属性的。

0 码力 | 33 页 | 732.13 KB | 6 月前
3
Open Flags 调研

*how, size_t size); open系统调用会打开pathname指定的文件（如果不存在，如果携带O_CREAT flag则会创建），返回一个文件描述符fd（该fd是进程打开文件描述符表的index），在后续系统调用（read(2)、write(2)、lseek(2)、fcntl(2) etc.）中指向这个打开的文件。打开的文件描述符记录中保存着文件的offset 和文件status。文件status。每个进程都有个 task_struct 描述符用来描述进程相关的信息，其中有个 files_struct 类型的 files 字段，里面有个保存了当前进程所有已打开文件描述符的数组，而通过 fd 就可以找到具体的文件描述符:© XXX Page 3 of 23 open & openat 系统调用的区别：如果pathname是绝对路径，则dirfd参数没用。如果pathname是相对路径 namespace有CAP_FOWNER, 而文件的uid在这个namespace中有一个映射）。 O_NOATIME : 在进程执行exec系统调用时关闭此打开的文件描述符，防止父进程泄露打开的文件给子进程。 O_CLOEXEC O_PATH: 使用 O_PATH 将不会真正打开一个文件，而只是准备好该文件的文件描述符，而且如果使用该标志位的话系统会忽略大部分其他的标志位(除了O_CLOEXEC, O_DIRECTORY, O_NOFOLLOW)。特别是如果配合使用

0 码力 | 23 页 | 524.47 KB | 6 月前
3
PFS SPDK: Storage Performance Development Kit

1 基于SPDK的CurveBS PFS存储引擎10/17/22 2 Why ●为了减少使用cpu做内存copy，减少系统调用 ●发挥某些被操作系统屏蔽的功能，例如nvme write zero ●根据阿里《When Cloud Storage Meets RDMA》的说法 ●在100Gbps网络带宽时，内存带宽成为瓶颈 ●Intel Memory Latency Checker (MLC)测试得到的CPU内存带宽是 61Gbps10/17/22 3 RDMA可以减轻CPU负担 ●可以减少CPU操作网络通讯的开销 ●读写内存都由网卡进行offload ●应用程序不再通过系统调用在内核和用户态来回切换10/17/22 4 磁盘的读写 ●基于EXT4的存储引擎，依然需要通过系统调用来回切换 ●读写都需要CPU拷贝数据 ●不能发挥某些NVME的功能，例如write zero10/17/22 5 为什么用PFS ●对代码比较熟悉 22 11 pfs_pwrite_zero ●在初始化curvebs时，需要创建chunk pool, 每一个chunk都要填零 ●chunk不再被卷使用时，需要回归chunk pool，为了安全也需要填0。 ●使用nvme的时候，可以直接使用nvme write zero命令，不需要传递大块数据（全是0），减少了nvme传输带宽，而且nvme在垃圾回收上可以优化，例如只是标记某块为0

0 码力 | 23 页 | 4.21 MB | 6 月前
3
Raft在Curve存储中的工程实践

raft可以解决分布式理论中的CP，即一致性和分区容忍性 • 大多数副本成功即可返回成功 • 速度取决于写的较快的大多数RAFT协议简介 • Leader：负责从客户端接受日志，把日志复制到其他服务器，当保证安全性的时候告诉其他服务器应用日志条目到他们的状态机中。 • Candidate: 发起选举。获取大多数选票的候选人将成为领导者。 • Follower: 响应来自其他服务器的请求，如果接受不到消息，就变成候选人并发起一次选举。 raft任期RAFT协议简介 raft复制状态机 1. leader收到客户端的请求。 2. leader把请求指令记录下来，写入日志，然后并⾏发给其他的服务器，让他们复制这条⽇志。 3. 当这条⽇志条⽬被安全的复制，leader会应⽤这条⽇志条⽬到它的状态机中。 4. 然后把执⾏的结果返回给客户端。 • 提供命令在多个节点之间有序复制和执行，当多个节点初始状态一致的时候，保证节点之间状态一致。 e对RAFT的优化优化点二： chunkfile pool 问题背景： Chunkserver使用基于ext4实现的本地文件系统，由于写操作存在较大的IO放大，因此在创建chunk 文件时会调用fallocate为文件预分配固定大小的空间，但是即便fallocate以后，在写文件未写过的块时仍需要更改元数据，存在一定的IO放大。解决思路：直接使用覆盖写过一遍的文件。由于chunk

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve核心组件之snapshotclone

高可用，克隆任务中断自动拉起继续克隆快照克隆服务器架构 • 基于brpc提供restful API的对外http接口 HttpService: • Serivce层面区分上层请求为同步接口调用，还是异步接口调用，同步接口调用直接调用Core层接口实现功能，异步接口创建Task，并交由TaskManager调度。 SnapshotService & CloneService: • 任务管理层负责调度 SnapshotTaskManager & CloneTaskManager: • 快照克隆核心模块，负责向下调用DataStore，MetaStore等底层模块，实现快照和克隆的具体功能。 SnapshotCore & CloneCore:快照克隆服务器架构 • SnapshotDataStore负责管理快照转储的数据块，通过调用 S3Adaptor（一个封装了s3 client的接口层）与S3交互，存取s3 中的对象。 SnapshotDataStore: • SnapshotCloneMetaStore负责管理快照和克隆任务等元数据，通过调用etcdclient，与etcd存储交互，存取etcd中的快照和克隆元数据。 SnapshotCloneMetaStore: • CurveClient封装了Client接口，负责与MDS和ChunkServer交互。 CurveClient:

0 码力 | 23 页 | 1.32 MB | 6 月前
3
BRPC与UCX集成指南

1 用UCX实现BRPC对RDMA的支持徐逸锋2 BRPC简介 ●BRPC是Curve的基础通讯框架 ●支持远程过程调用 –C++ –TCP传输 –bthread协程(m:n调度，减少基于内核的下文切换，减少cache miss) ●多协议支持 –baidu_std,http,grpc… ●protobuf3 BRPC简介 ●Client/Server架构 ●使用Protobuf定义协议文件 ●Socket对象引用计数，多个Channel可以共享一个Socket对象 ●往SocketMap里调用Insert，要么返回已经存在的Socket对象（引用计数加一)，要么创建一个新的12 BRPC EventDispatcher ●是socket事件分发的中心 ●使用epoll和边沿触发 ●提供监视一个fd是否可读写，并调用对应socket对象的成员函数1314 Socket 输入事件处理15 Socket 是socket文件句柄 –void (*on_edge_triggered_events)(Socket*) ●可读事件的回调函数16 Server创建Socket Listener 把系统调用创建的listen socket fd传给Socket::Create，获得一个Socket对象17 Socket Listener::OnNewConnections Listener 获得一个socket

0 码力 | 66 页 | 16.29 MB | 6 月前
3
CurveFS Client 概要设计

构，缓存之；判断inode结构中，对应请求[off, size]位置的空间是否有分配：如果未分配或只有部分分配空间，则调用空间分配器分配空间，并根据空间分配器返回结果，修改inode结构（包括file length）; inode修改需要持久化到底层并修改本地cache；调用curve client接口，写curve卷对应[offset，len] 数据。（这里涉及到一个问题，是否从fuse （这里涉及到一个问题，是否从fuse下来的请求是4k对齐的，如果不是，那么这里还需要修改为read merge write，即读出未对齐缺少的部分，然后整个[offset,len] 调用curve client写）; 修改inode结构，如果上述区域存在先前未写过的区域，则需要去掉unwritten，具体方式根据inode结构而定；inode修改需要持久化到底层并修改本地cache；© XXX Page 6 of 11 read ip等信息，然后从metaserver获取inode结构，缓存之；根据inode结构，拆分unwritten/未分配的区域与写过的区域，未写过的区域填0，其他区域继续读取根据inode结构中信息，调用curve client接口，读取对应的[offset, len]数据。（这里同样要考虑4k对齐的问题，如果不对齐，则需要读取对齐的区域，然后去掉多读的部分）（读写可以做数据缓存，当前先不考虑）。

0 码力 | 11 页 | 487.92 KB | 6 月前
3
curvefs client删除文件和目录功能设计

use_reply_create时增加1 当内核移除其inode cache时，会调用forget，此时lookup count需要减nlookup（forget的参数）当umount时，所有lookup count减至0 不应该完全依赖forget接口去实现inode的移除，因为forget接口可能不会被内核调用（例如client崩溃）相关调研 moosefs moosefs 未对接forget 会崩溃，也可能下线了，永远不再起来。所以实际的内存和外存中的inode的删除机制，必须是在metaserver中实现的。client端只是进行nlink-1的操作。不能完全依赖forget接口的调用来移除inode，因为client可能会崩溃，也可能下线。所以实际移除inode只能依赖于metaserver，两种方式：chubaofs的简单粗暴放7天就删，或者moosefs使用session机 client端后续的open只在本地将open num++ client端在close过程中，首先会去open num–，当发现open num==0时，也就是所有的open都已经close了，此时调用close on metaserver close on metaserver的过程，将移除内存中的session。© XXX Page 12 of 15© XXX Page 13 of 15

0 码力 | 15 页 | 325.42 KB | 6 月前
3
Curve支持S3 数据缓存方案

9 启动后台线程，将写Cache定时刷到S3上，同时通过inodeManager更新inode缓存中的s3InfoList。具体细节见本地磁盘缓存如果有配置writeBack dev，则会调用diskStroage进行本地磁盘write，最终写到s3则由diskStroage模块决定。关键数据结构 message S3ChunkInfo { required uint64 chunkId 果没有则生成新的fileCacheManager，解锁，调用fileCacheManager的Write函数。 2.考虑到同一个client同一个文件同时只能一个线程进行文件写，所以在Write函数中加写锁。 3.根据请求offset，计算出对应的chunk index和chunkPos。将请求拆分成多个chunk的WriteChunk调用。 4.在WriteChunk内，根据index找到对应的如果有可写的DataCache，则调用Write接口将数据合并到DataCache中；，加入到ChunkCacheManager的Map中。如果没有可写的DataCache则new一个 5.完成后返回成功。 Read流程 1.根据请求offset，计算出对应的chunk index和chunkPos。将请求拆分成多个chunk的ReadChunk调用。 2.在ReadChunk内，根据

0 码力 | 9 页 | 179.72 KB | 6 月前
3
Curve核心组件之Client - 网易数帆

对应关系（包含逻辑池以及复制组信息） 2. 从MDS获取复制组所在的机器列表 3. 从Chunkserver获取复制组leader信息 4. 将请求发往leader节点CLIENT IO线程模型用户线程 1. 用户调用接口，发起IO请求 2. AioWrite将请求封装成io task并放入任务队列 3. 放入任务队列后，异步请求发起成功，返回用户 IO拆分线程 4. 从任务队列取出任务后进行拆分 5. er 9. 发送写请求给Chunkserver BRPC线程 10.Chunkserver处理完成后返回RPC Response 11.用户请求的所有子请求完成后，调用 IOTracker::Done 12.调用异步请求回调，返回用户CLIENT IO请求重试 IO分发线程将拆分后的子请求通过RPC请求发往指定的Chunkserver上，RPC有可能会失败，一般情况下处理逻辑是

0 码力 | 27 页 | 1.57 MB | 6 月前
3

共 19 条前往

页

分类

语言

格式

CurveFs 用户权限系统调研

Open Flags 调研

PFS SPDK: Storage Performance Development Kit

Raft在Curve存储中的工程实践

Curve核心组件之snapshotclone

BRPC与UCX集成指南

CurveFS Client 概要设计

curvefs client删除文件和目录功能设计

Curve支持S3 数据缓存方案

Curve核心组件之Client - 网易数帆