读写缓存分离 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Curve支持S3 数据缓存方案

© XXX Page 1 of 9 Curve支持S3 数据缓存方案© XXX Page 2 of 9 版本时间修改者修改内容 1.0 2021/8/18 胡遥初稿背景整体设计元数据采用2层索引对象名设计读写缓存分离缓存层级对外接口后台刷数据线程本地磁盘缓存关键数据结构详细设计 Write流程 Read流程 ReleaseCache流程因此需要通过Cache模块解决以上2个问题。整体设计整个dataCache的设计思路，在写场景下能将数据尽可能的合并后flush到s3上，在读场景上，能够预读1个block大小，减少顺序读对于底层s3的访问频次。从这个思路上该缓存方案主要针对的场景是顺序写和顺序读，而对于随机写和随机读来说也会有一定性能提升，但效果可能不会太好。元数据采用2层索引由于chunk大小是固定的（默认64M），所以Inode中采用map读写缓存分离读写缓存的设计采用的是读写缓存分离的方案。写缓存一旦flush即释放，读缓存采用可设置的策略进行淘汰（默认LRU），对于小io进行block级别的预读。即读写缓存相互没影响不相关，缓存层级缓存层级分为fs->file->chunk->datacache 4层，通过inodeId找到

0 码力 | 9 页 | 179.72 KB | 6 月前
3
CurveFS S3本地缓存盘方案

Page 1 of 9 Curvefs-S3 本地写缓存盘方案© XXX Page 2 of 9 背景方案设计主要数据结构定义方案设计思考 POC验证背景当前，s3客户端在写底层存储的时候是直接写入远端对象存储，由于写远端时延相对会较高，所以为了提升性能，引入了写本地缓存盘方案。也即要写底层存储时，先把数据写到本地缓存硬盘，然后再把本地缓存硬盘中的数据异步上传到远端对象存储。方案设计© S3模块接收到写入后先写入写内存缓存页，如果满足持久化的条件后，那么则准备持久化。如果未配置本地硬盘作为写缓存，那么直接持久化到远端的对象存储；如果配置了本地硬盘作为写缓存，那么则尝试先写入本地硬盘写缓存目录。写本地硬盘缓存目录之前先判断缓存目录容量是否已达到阈值，如果已经达到阈值，那么则直接写入到远端对象存储；否则，则写入到本地硬盘写缓存目录中。文件写入本地硬盘写缓存目录后，从本地硬盘读目录© XXX Page 4 of 9 做一个硬链接链接到该文件。本次io在本地硬盘写入好之后，异步上传模块会适时把本地硬盘写缓存目录中的文件上传到远端对象存储集群，上传成功后，删除本地写缓存目录中的对应文件。同时，缓存清理模块会定时检查本地硬盘缓存目录容量情况，如果容量已经达到阈值了，则进行文件的清理工作。另外，异常管理模块处理客户端挂掉后的文件重新上传问题。主要数据结构定义 class

0 码力 | 9 页 | 150.46 KB | 6 月前
3
Curve 分布式存储设计

1. 兼顾性能与容量的机器学习场景 2. 快速跨云弹性发布的业务 3. 低成本大容量需求的业务 4. 中间件冷热数据自动分离 5. S3和POSIX统一访问需求主要挑战和支持场景Curve Roadmap 1. 架构 1. 文件存储支持分布式缓存、完善冷热数据分层存储能力 2. 完善混合云、公有云上部署架构 3. 完善高性能3副本存储引擎，支持混合盘 4. 文件存储支持数据存储到HDFS、rados等引擎文件存储支持数据存储到HDFS、rados等引擎 2. 性能 1. 完善RDMA/SPDK方案，发布稳定版本 2. 更高性能硬件选型、适配及性能调优 3. 大文件读写性能优化，RAFT优化，降低写放大 3. 功能 1. 文件存储支持回收站/生命周期管理/配额/用户权限等 2. 支持NFS、CIFS/SMB、HDFS等协议 3. 块存储支持按存储池创建卷Curve 社区介绍 1. Curve的

0 码力 | 20 页 | 4.13 MB | 6 月前
3
副本如何用CLup管理PolarDB

数据可用性  提供读写VIP  读写高可用读写分离  多个读库之间负载均衡负载均衡  读线性扩展  支持分库分表高扩展性写 VIP 读 VIP PG (Primary) PG (Standby1) PG (Standby2) PG (Standby3) 数据同步复制写请求读请求应用层负载均衡器 CLup高可用及读写分离功能http://www

0 码力 | 34 页 | 3.59 MB | 6 月前
3
CurveFS Copyset与FS对应关系

4、curvefs的topo信息 5、curvefs mds和metaserver的心跳 6、详细设计 6.1 创建fs 6.2、挂载fs 6.3、创建文件/目录 6.4、open流程 6.5、读写流程 6.6、topology 7、工作评估 7.1 client端 7.2 mds端 7.3 metaserver端 metaserver 子模块拆分 8、inode和dentry的内存估算成。 curve块设备的copyset是在空间预分配的时候就确定了，每次预分配1GB的空间，然后这1GB的空间每个chunk对应的copyset在预分配的时候已经确定。后续的读写的操作直接去对应的copyset上去进行读写。这个分配copyset方式，并不适合curvefs的元数据。这种分配方式是提前分配了一批空间，即使用户只需要写4KB数据，也一次性分配1GB的空间。而curvefs的元数据思路二：client在创建inode的时候，自己选择一个分片，然后由这个分片自己分配一个inode。采用这种思路，在create fs的时候，就为fs准备好的几个copyset，然后client把copyset缓存在本地。每个copyset管理一段inode。选定copyset，就选定了服务的3个metaserver。至于均衡上，创建inode的时候，轮流在这个fs的copyset 上进行创建。这种方式肯定不

0 码力 | 19 页 | 383.29 KB | 6 月前
3
CurveFS Client 概要设计

block），缓存到client端。 destroy void (*destroy) (void *userdata); 清理init缓存的文件系统信息。 lookup void (*lookup) (fuse_req_t req, fuse_ino_t parent, const char *name); 根据parent inode id和name从denty缓存中找到对应的denty结构； nty结构；如果dentry缓存中不存在对应的inode，则从mds根据parent inode id获取parent inode 所在copyset，metaserver ip等信息，然后从metaserver获取denty（这里有两种方式，一种是只获取当前需要的 denty，一种是list整个目录的denty，这个需要考虑用哪个接口）根据找到的denty结构，获取inodeid，设置 off, struct fuse_file_info *fi); 首先根据inode id 从缓存中查找到对应inode结构；如果inode缓存中不存在对应的inode，则从mds获取inode所在copyset，metaserver ip等信息，然后从metaserver获取inode结构，缓存之；判断inode结构中，对应请求[off, size]位置的空间是否有分配：如果未分配或只有部

0 码力 | 11 页 | 487.92 KB | 6 月前
3
Open Flags 调研

flags中必须access mode：O_RDONLY, O_WRONLY, O_RDWR其中之一；© XXX Page 4 of 23 文件创建标志只影响打开操作, 文件状态标志影响后面的读写操作 file creation flags: O_CLOEXEC, O_CREAT, O_DIRECTORY, O_EXCL, O_NOCTTY, O_NOFOLLOW, O_TMPFILE, and O_SYNC(O_DSYNC), O_LARGEFILE, O_NOATIME, O_NONBLOCK, O_PATH flags的含义 O_RDONLY: 只读 : 只写 O_WRONLY : 读写 O_RDWR O_CREAT: 当pathname对应的文件不存在时则创建它，文件uid为进程uid，gid为进程gid或父目录gid（取决于SGID是否置位）；当flags中出现O_CREAT 了兼容老版本的O_SYNC，现在O_SYNC=O_DSYNC|04000000）。 FASYNC: 异步的，启用signal-driven I/O。 : 直接I/O，执行磁盘I/O时绕过缓冲区高速缓存，从用户空间直接将数据传递到文件或磁盘设备。 O_DIRECT : 使得32位操作系统对大文件支持（_FILE_OFFSET_BITS=64）。 O_LARGEFILE : 以目录形式打开，如果

0 码力 | 23 页 | 524.47 KB | 6 月前
3
Curve设计要点

地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力数据组织形式 • PageFile • 地址空间到—>chunk: 1 : N chunk有先后关系 • 创建时指定大小，lazy分配chunk • 提供4kb随机读写能力 • 支撑块设备应用场景块设备层面的快照功能即为文件层面快照数据组织形式 • AppendFile cs发起请求 1. 用户发起请求； 2. Client 向 mds 查询请求的元数据，并缓存到本地，请求转换为对 chunk 的请求 3. Client 向 chunkserver 查询 chunk 所在的 copyset的leader Chunkserver节点； 4. Client 向 leader 发送读写请求, Chunkserver 完成后通知client； 5. Client通知用户请求完成。背景 Client通知用户请求完成。背景 01 02 03 04 总体设计系统特性近期规划单卷4K随机读写IOPS 102k 39.7k 41.7k 127k 4K随机写 4K随机读 Ceph（L/N） Curve 151.89% 204.56% 单卷4K随机读写平均延迟(ms) 1.244 3.2 3.1 0.998 4K随机写 4K随机读 61.12 % 67.8% 测试环境：6台服务器*20块SATA

0 码力 | 35 页 | 2.03 MB | 6 月前
3
CurveFS S3数据整理(合并碎片、清理冗余)

，为需要新增的obj - 老的obj为全部需要删除的部分应用变更 - 先读写新增的s3 objects列表, 由于新增了version字段, 不会涉及到覆盖老的对象 - 加锁, 增量的更新inode的s3chunkinfolist, 保证原子更新, 更新失败回退新增数据 - 等待N秒, 保证mds已经告知client缓存失效, 需要更新为新的s3chunkinfolist // 需不需要这个步骤@xuchaojie : 读: 在执行变更删除原来的s3 object时, 执行读的客户端的缓存可能还是原有的chunkinfolist, 可能会去读已经删除的object, 这种时候读会失败可以使用双重保证读失败的时候retry, 或许可以重拉metadata 整理后, mds在一个时间间隔内主动告知client这个inode元数据缓存失效, 重拉写: 只是对chunkinfolist做新增, 不影响整理对原有部分的变更

0 码力 | 3 页 | 101.58 KB | 6 月前
3
Raft在Curve存储中的工程实践

对接OpenStack平台为云主机提供高性能块存储服务 • 对接Kubernetes为其提供RWO、RWX等类型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象存储作为数据存储引擎，为公有云用户提供高性价比的共享文件存储 • 支持在物理机上挂载使用块设备或FUSE文件系统开源社区社区运营 raft的apply，直接在对应的chunk上写入数据。Curve文件存储RAFT应用 Curve文件存储 • 分布式文件系统 • 支持多挂载，提供close-to-open一致性 • 提供缓存加速，可使用内存、本地盘、云盘加速 • 存储后端可对接对象存储，降低成本 • 支持生命周期管理 Curve文件存储架构 • client：接受用户请求，采用fuse的方式挂载挂载使用。 •

0 码力 | 29 页 | 2.20 MB | 6 月前
3

共 24 条前往

页

分类

语言

格式

Curve支持S3 数据缓存方案

CurveFS S3本地缓存盘方案

Curve 分布式存储设计

副本如何用CLup管理PolarDB

CurveFS Copyset与FS对应关系

CurveFS Client 概要设计

Open Flags 调研

Curve设计要点

CurveFS S3数据整理(合并碎片、清理冗余)

Raft在Curve存储中的工程实践