BRPC与UCX集成指南●构建于uct之上,实现更加高级的功能,容易使用,但有一定开销。 ●UCT和UCP两者都有context概念,但是UCT只对一块网卡,而UCP把若干个UCT组合起 来,自动选择最快路径传输。 ●高级特性 –大消息报文的自动分片传输 –Active message, atomic operation, tag match, stream27 典型的RDMA栈28 UCX 编程的一些基本概念 ●Context –完成ucx的功能,可以在应用程序中调用的函数(不是单独执行的线程) ●Listener –接收连接请求 ●Ep –连接对象,在ep上请求发送和接收29 UCP 消息接口类型 ●Active message –速度最快,被brpc使用作为消息传递 –消息通过回调函数接收 –消息异步发送 ●Tag –MPI使用 ●Stream –官方不推荐30 WORKER ●worker是UCX通讯中的核心概念,它是一个进度引擎(progress dispatcher是边沿触发 ●写端句柄永远不会触发可读事件 ●写端句柄第一次epoll会返回可写,可写是brpc判断连接成功的措施 ●UcpCm从来不会写入pipe,如果pipe有可读字节,会打印错误,说明有地方遗漏了修 改。 ●Socket通过关闭UcpCm返回的句柄来关闭连接。此举和Socket原来代码一样,减少了修 改。UcpCm检测到pipe读端可读,关闭UcpConnection。0 码力 | 66 页 | 16.29 MB | 6 月前3
curvefs client删除文件和目录功能设计件节点才会从 被清除。 reserve 使用了session机制,记录client端的open状态 通过META文件系统访问reserve 使用CUTOMA_FUSE_RESERVED_INODES消息保持和释放inode 实现了Timer,定期判断是否还有session,如果没有client打开,则进行清理。 优点: 通过meta文件系统来管理trash,更为优雅。© XXX Page dentry is deleted successfully but inode is not, still returns success. 此时,nlink是没有-1的,删除接口直接忽略了第二步的错误。 根据其论文描述:© XXX Page 14 of 15 chubaofs使用的是类似fsck的工具去修复这个问题,也就是运维手段。 工作量评估 需要修改的模块,如下: Client端:0 码力 | 15 页 | 325.42 KB | 6 月前3
Curve元数据节点高可用revision:3], 因此watch Leader/MDS2。 step3: MDS1退出后,MDS2收到MDS1的key被删除的消息,Campagin成功© XXX Page 13 of 30 异常情况1:备MDS2中途退出 step1:MDS3收到MDS2的key被删除的消息 step2: MDS3重新获取到有相同前缀Leader的key为{ [Leader/MDS1, revision:2]} etcd集群leader失效,到重新选举出leader的耗时 ElectionTime > ElectionTimeout 4.2.2 异常情况1:MDS1退出,可以正常处理 MDS2收到leader/MDS1被删除的消息,Campaign成功,成为leader© XXX Page 20 of 30 2. mds2当选leader之后,同样与etcd server有三类交互: ①与etcd server维持租约。 PeriodicGetTime ① 红色的点是etcd集群选主成功的时间点,选主成功之后MDS1的lease过期,Leader/MDS1被删除 ② 绿色的点是MDS2收到Leader/MDS1删除消息的时间点。此时MDS2启动并提供服务 ③ 黄色的点是最坏情况,MDS1在绿色点和红色点之间成功get到leader/MDS1, 在下一个周期get失败 这种情况下出现双主的最长时间为PeriodicGetTime(蓝色直线段),0 码力 | 30 页 | 2.42 MB | 6 月前3
Curve质量监控与运维 - 网易数帆制造或模拟系统异常(磁盘错误、网络错误、资源 冲突等)、依赖服务异常、应用本身异常等非正常 情况,测试软件的性能和稳定性是否符合预期。 规模测试 测试模块在一定规模下是否能够正常工作,是否 会出现异常或者崩溃, 14/33系统测试 系统测试是对整个系统的测试,将硬件、软件、操作人员看作一个整体,检验它是否有不符 合系统说明书的地方。它是一个黑盒测试,可以发现系统分析和设计中的错误。 Cur0 码力 | 33 页 | 2.64 MB | 6 月前3
Raft在Curve存储中的工程实践他服务器,当保证安全性的时候告诉其他服务器应用 日志条目到他们的状态机中。 • Candidate: 发起选举。获取大多数选票的候选人将 成为领导者。 • Follower: 响应来自其他服务器的请求,如果接受不 到消息,就变成候选人并发起一次选举。 • 时间被划分成一个个的任期,每个任期开始都是一次 选举。 • 选举成功,领导⼈会管理整个集群直到任期结束。 • 选举失败,这个任期就会没有领导⼈⽽结束。 raft选举leader0 码力 | 29 页 | 2.20 MB | 6 月前3
CurveFS Client 概要设计server接口获取文件和目录信息等 与现有块设备client交互,调用块设备接口,对卷进行读写。 向上对接fuse接口,协调上述模块交互,实现功能。 main 主函数模块,类似deamon,接收mount消息并处理(fuse session)。 除上述功能以外,还需实现文件系统创建和fuse挂载工具,功能主要是: 创建文件系统,指定文件系统的名字、卷大小(多文件系统)、 扩展文件系统? 挂载fuse0 码力 | 11 页 | 487.92 KB | 6 月前3
Curve核心组件之Client - 网易数帆RPC有可能会失败,一般情况下 处理逻辑是sleep一个较短时间后重试,但是存在两种特殊的场景: Chunkserver Overload: 这种情况下,对应的RPC Response中返回的错误码是OVERLOAD,说明底层Chunkserver正在处理的 请求数量过多。按照一般重试逻辑,大概率情况下重试请求还是返回OVERLOAD,造成用户IO请求一直 无法返回。 加入睡眠时间指数0 码力 | 27 页 | 1.57 MB | 6 月前3
新一代云原生分布式存储len) •服务质量要求:数据不能丢、服务随时可用、弹性扩缩容 要什么 •成百上千台存储节点 •磁盘故障、机器故障、网络故障概率性发生 有什么 分布式存储系统需要满足接口需求,并且有持续监控、错误检测、容错与自动恢复的能力 以达到高可靠、高可用、高可扩分布式存储的要素 要 素 拆 解 数据分布 —— 无中心节点/中心节点 均 衡 地址空间的每段数据会分布在不同机器的磁盘上,如0 码力 | 29 页 | 2.46 MB | 6 月前3
Open Flags 调研进程当前工作目录的相对路径,此时等同于open。 open flags flags定义 flags通过宏定义实现,定义见 ,主要包括如下flag fcntl.h # 红色是不支持且会执行结果错误;橙色是暂不确定但不影响写入结果;紫色为暂时无法测试;黑色是已经支持 #define O_RDONLY 00000000 #define O_WRONLY 00000001 #define O_RDWR0 码力 | 23 页 | 524.47 KB | 6 月前3
共 9 条
- 1













