缓存模块 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve支持S3 数据缓存方案

© XXX Page 1 of 9 Curve支持S3 数据缓存方案© XXX Page 2 of 9 版本时间修改者修改内容 1.0 2021/8/18 胡遥初稿背景整体设计元数据采用2层索引对象名设计读写缓存分离缓存层级对外接口后台刷数据线程本地磁盘缓存关键数据结构详细设计 Write流程 Read流程 ReleaseCache流程 3操作过多 2.对于4k 小io每次都要和s3交互，导致性能非常差。因此需要通过Cache模块解决以上2个问题。整体设计整个dataCache的设计思路，在写场景下能将数据尽可能的合并后flush到s3上，在读场景上，能够预读1个block大小，减少顺序读对于底层s3的访问频次。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。的目的是为了后续从对象存储上遍历，反查文件，这里就要求inodeId是永远不可重复。读写缓存分离读写缓存的设计采用的是读写缓存分离的方案。写缓存一旦flush即释放，读缓存采用可设置的策略进行淘汰（默认LRU），对于小io进行block级别的预读。即读写缓存相互没影响不相关，缓存层级缓存层级分为fs->file->chunk->datacache 4层，通过inodeId找到f

0 码力 | 9 页 | 179.72 KB | 6 月前
3
CurveFS S3本地缓存盘方案

Page 1 of 9 Curvefs-S3 本地写缓存盘方案© XXX Page 2 of 9 背景方案设计主要数据结构定义方案设计思考 POC验证背景当前，s3客户端在写底层存储的时候是直接写入远端对象存储，由于写远端时延相对会较高，所以为了提升性能，引入了写本地缓存盘方案。也即要写底层存储时，先把数据写到本地缓存硬盘，然后再把本地缓存硬盘中的数据异步上传到远端对象存储。方案设计© S3模块接收到写入后先写入写内存缓存页，如果满足持久化的条件后，那么则准备持久化。如果未配置本地硬盘作为写缓存，那么直接持久化到远端的对象存储；如果配置了本地硬盘作为写缓存，那么则尝试先写入本地硬盘写缓存目录。写本地硬盘缓存目录之前先判断缓存目录容量是否已达到阈值，如果已经达到阈值，那么则直接写入到远端对象存储；否则，则写入到本地硬盘写缓存目录中。文件写入本地硬盘写缓存目录后，从本地硬盘读目录© 4 of 9 做一个硬链接链接到该文件。本次io在本地硬盘写入好之后，异步上传模块会适时把本地硬盘写缓存目录中的文件上传到远端对象存储集群，上传成功后，删除本地写缓存目录中的对应文件。同时，缓存清理模块会定时检查本地硬盘缓存目录容量情况，如果容量已经达到阈值了，则进行文件的清理工作。另外，异常管理模块处理客户端挂掉后的文件重新上传问题。主要数据结构定义 class DiskCacheManagerImpl

0 码力 | 9 页 | 150.46 KB | 6 月前
3
CurveFS Client 概要设计

rmdir opendir readdir getattr & setattr access rename symlink & readlink link flush & fsync 其他功能分析模块划分接口设计 Cache设计时间作者内容 2021-04-27 许超杰初稿背景 CurveFS初步设计见，目前需细化Client端设计 block），缓存到client端。 destroy void (*destroy) (void *userdata); 清理init缓存的文件系统信息。 lookup void (*lookup) (fuse_req_t req, fuse_ino_t parent, const char *name); 根据parent inode id和name从denty缓存中找到对应的denty结构； nty结构；如果dentry缓存中不存在对应的inode，则从mds根据parent inode id获取parent inode 所在copyset，metaserver ip等信息，然后从metaserver获取denty（这里有两种方式，一种是只获取当前需要的 denty，一种是list整个目录的denty，这个需要考虑用哪个接口）根据找到的denty结构，获取inodeid，设置

0 码力 | 11 页 | 487.92 KB | 6 月前
3
CurveFS Copyset与FS对应关系

3、创建文件/目录 6.4、open流程 6.5、读写流程 6.6、topology 7、工作评估 7.1 client端 7.2 mds端 7.3 metaserver端 metaserver 子模块拆分 8、inode和dentry的内存估算 8.1 一台机器上能存放多少个inode和dentry 8.2 一台机器上建议的copyset数量 8.3 每个copyset建议管理存储容量的大小思路二：client在创建inode的时候，自己选择一个分片，然后由这个分片自己分配一个inode。采用这种思路，在create fs的时候，就为fs准备好的几个copyset，然后client把copyset缓存在本地。每个copyset管理一段inode。选定copyset，就选定了服务的3个metaserver。至于均衡上，创建inode的时候，轮流在这个fs的copyset 上进行创建。这种方式肯定不 Page 15 of 19 6.5、读写流程读写流程和之前的读写流程大致保持不变。变化点在于之前inode修改是直接去metaserver上修改，现在变成了去copyset上修改。 client端缓存所有open的inode，读写的时候，根据inode的元数据，去对应的volume或者S3进行读写。如果涉及到inode的修改，根据inodeId查询对应的copyset，去对应的copyset进行inode的更新。

0 码力 | 19 页 | 383.29 KB | 6 月前
3
Curve核心组件之Client - 网易数帆

 FileInstance：对应一个已挂载的卷  LeaseExecutor：负责定期与MDS通信，获取卷的元数据信息  元数据信息在打快照时会进行变化  MetaCache：元数据缓存  IOTracker：跟踪一个上层IO请求  IOSplitor：IO转换拆分  ChunkClient、CliClient：与Chunkserver进行通信  前者负责IO请求向cinder/glance提供了Python API https://github.com/opencurve/curve-qemu-block-driver NBD：实现了Curve-NBD，与内核NBD模块进行交互可以作为容器的数据存储 CSI插件也已经开源： https://github.com/opencurve/curve-csi CLIENT上层应用CLIENT虚拟块设备CLIENT主要功能  数据面：AioWrite/AioRead、Write/Read  控制面：Create/Delete、Open/Close、Rename等  IO处理：转换、拆分、合并  元数据获取及缓存  逻辑chunk与物理chunk映射关系  物理chunk所属的复制组(copyset)  复制组所在的chunkserver列表  复制组的leader信息  Failover支持

0 码力 | 27 页 | 1.57 MB | 6 月前
3
Curve核心组件之mds – 网易数帆

元数据信息。 • Nameserver: 管理文件的元数据信息。 • Copyset: 副本放置策略。 • Heartbeat: 心跳模块。跟chunkserver进行交互，收集chunkserver上的负载信息、 copyset信息等。 • Scheduler: 调度模块。用于自动容错和负载均衡。TOPOLOGY topology用于管理和组织机器，利用底层机器的放置、网络的规划以面向业务提供如下功能和非功能需求。 user 3、查询leader节点 4、向leader cs发起请求 1. 用户发起请求(fd, offset, length) ； 2. Client 向 mds 查询请求的元数据，并缓存到本地，请求转换为对 chunk 的请求 (CopysetId ,chunkId, offset in chunk, length in chunk)； 3. Client 向 chunkserver offline） • 记录chunkserver定期上报的状态信息（磁盘容量，磁盘负载，copyset负载等），以提供运维工具查看上述状态信息。 • 通过上述信息的定期更新，作为schedule 模块进行均衡及配置变更的依据 • 通过chunkserver定期上报copyset的copyset的epoch，检测chunkserver的copyset与mds差异，同步两者的copyset信息

0 码力 | 23 页 | 1.74 MB | 6 月前
3
CurveFS方案设计

的元数据缓存使用的 lru cache，因此 list 只能依赖 etcd 的 range 获取方式。如果需要对 list 加速，需要新的缓存结构 c. 扩展性/可用性/可靠性依赖于第三方kv存储，目前是etcd CurveFS 单机内存元数据设计类似 fastcfs 和 moosefs 的元数据设计方式，采用通用的 dentry，inode 两层映射关系，所有的元数据都缓存在内存中，持久化在 master-slave 的方式，master 以同步方式调用 slave，slave 在内存中也缓存了全部元数据信息 master-slave 多副本数据 CurveFS 分布式元数据设计类似 chubaofs 的元数据设计方式，同样是采用 dentry，inode 两层映射关系，所有的元数据都缓存在内存中。元数据是分片的，使用 multi-raft 持久化元数据以及保证多副本数据一致性。基于这种方式开发： apply的时候是以kv的方式写入到文件，因此可以复用这个逻辑。客户端感知文件版本号。如果版本号变更，就触发raft的sanpshot，并且只apply小于版本号的部分这种方式相当于每次都是全量缓存当前元数据，不做增量快照，考虑到转储逻辑，这也是可以接受的对比这两种方案，第一种方案对于copy场景是友好的，但需要重新实现一套快照逻辑；第二种方案的改动和实现相对简单，并且对于需要备份的

0 码力 | 14 页 | 619.32 KB | 6 月前
3
Curve设计要点

2、查询元数据 5、返回结果 5、返回结果 user 3、查询leader节点 4、向leader cs发起请求 1. 用户发起请求； 2. Client 向 mds 查询请求的元数据，并缓存到本地，请求转换为对 chunk 的请求 3. Client 向 chunkserver 查询 chunk 所在的 copyset的leader Chunkserver节点； 4. Client prometheus + grafana 可视化 • 每日报表 • 丰富的数据定位问题 • 集群状态查询工具 • curve_ops_tool • 自动化部署工具 • 一键部署，一键升级高质量 • 良好的模块化和抽象设计 • 完善的测试体系 • 单元测试行覆盖80%+，分支覆盖70%+ • 集成测试 Given When Then 方法完备的测试用例集 • 自动化异常测试 41个异常用例 •

0 码力 | 35 页 | 2.03 MB | 6 月前
3
Raft在Curve存储中的工程实践

以写请求为例： 1. Client 发送写请求给 Leader ChunkServer。 2. ChunkServer 收到请求，将请求封装成一个 log entry，提交给 raft。 3. raft模块在本地持久化 entry 的同时发送 entry 给其他副本（ChunkServer）。 4. 本地持久化 log entry 成功，且另一个副本也写入 log entry 成功则 commit。 raft的apply，直接在对应的chunk上写入数据。Curve文件存储RAFT应用 Curve文件存储 • 分布式文件系统 • 支持多挂载，提供close-to-open一致性 • 提供缓存加速，可使用内存、本地盘、云盘加速 • 存储后端可对接对象存储，降低成本 • 支持生命周期管理 Curve文件存储架构 • client：接受用户请求，采用fuse的方式挂载挂载使用。 •

0 码力 | 29 页 | 2.20 MB | 6 月前
3
Curve文件系统元数据管理

/A/C到/B/E hardlink：生成一个hardlink /B/E，指向文件/A/C 6、curve文件系统的多文件系统的设计 1、设计一个分布式文件系统需要考虑的点：文件系统的元数据是否全缓存？元数据持久化在单独的元数据服务器上？在磁盘上？在volume上？ inode+dentry方式？当前curve块存储的kv方式？是否有单独的元数据管理服务器？ 2、其他文件系统的调研总结无中心化服务器 dht算法 hash 扩展时大量迁移 client缓存 inode→ hashtable(gfid) dentry→ hashtable(name) inode扩展属性字段和写数据一样好写多份 overwirte有数据不一致风险 curve 有元数据服务器 lru cache缓存 kv → hashtable(key parent inode + name) Page 7 of 24 场景一：系统加载的时候，元数据从持久化介质中加载。元数据进行恢复的时候，有两种情况。一种系统必须等到元数据全部加载到内存才能提供服务，这种情况下，元数据需要在内存全缓存。这种方式，对性能友好，但是需要消耗比较多的内存，元数据服务的扩展性受限于内存，而且在元数据服务启动的时候，需要等待一段时间加载内存。一种是元数据需要全部加载到内存，这种情况下，元数据只需要加

0 码力 | 24 页 | 204.67 KB | 6 月前
3

共 24 条前往

页

分类

语言

格式

Curve支持S3 数据缓存方案

CurveFS S3本地缓存盘方案

CurveFS Client 概要设计

CurveFS Copyset与FS对应关系

Curve核心组件之Client - 网易数帆

Curve核心组件之mds – 网易数帆

CurveFS方案设计

Curve设计要点

Raft在Curve存储中的工程实践

Curve文件系统元数据管理