性能问题 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

新一代云原生分布式存储

| 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 场景介绍 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ 答疑存储的发展互联网时代，数据大爆炸大型主机成本高单点问题扩容困难各存储设备通过网络互联大规模弹性扩容底层构建在分布式存储之上云的概念成本：共用基础设施弹性：随意扩缩容 Quorum • 大多数副本写成功 • 读写服务可用性做一个折中 • 写性能提升，速度取决于写的较快的大多数 W R client W W W client分布式存储介绍 01 存储的发展 | 分布式存储的分类 | 分布式存储的要素 02 03 04 Ceph 架构简介 | 块存储场景 | 使用中的问题 Curve 架构简介 | 数据对比 | 应用情况 FAQ -> 文件系统 -> 块设备层 -> 不同协议/驱动使用中的问题 • io抖动（一致性协议）：异常场景（比如阵列卡一致性巡检，坏盘，慢盘，网络异常），服务升级 • 性能差（一致性协议）：在通用硬件下，无法支撑数据库、kafka等中间件对存储性能和稳定性要求 • 容量不均衡（数据放置）：集群各节点容量不均衡需要人为干预 • 上述问题和架构涉及、核心功能的选型有关，在已有开源版本上改进代价很大分布式存储介绍

0 码力 | 29 页 | 2.46 MB | 5 月前
3
TGT服务器的优化

DPO是disable page out的缩写,FUA是force unit access的缩写 • FUA可以让某些文件系统在做写操作时，不需要提交一个SCSI FLUSH COMMAND，提高性能 • 已经修改TGT，让驱动可以声明自己是否支持DPO & FUA • 由于增加的Curve 驱动没有本地cache，所以DPO & FUA可以turn on. • sd 0:0:0:0: [sda] TGT的性能问题 • 性能问题主要体现在不能有效使用多CPU • 对多个socket connection，在单线程里做event loop多路复用。 • 多个target时，如果挂的设备多，一旦客户端请求量大，就会忙不过来。 • 开源界有尝试修改 • 例如sheepdog的开发者提交过一个patch，但是测试效果不理想，分析原因，event loop依然是瓶颈对TGT的性能优化 • 享一个target，限制使用一个CPU。 • 管理平面不变。主线程里的事件循环及问题：管理面是主线程，登录，增、删、改target,lun,session,connection,params 都在主线程，而target epoll 线程也要使用这些数据，多线程冲突，数据一致性问题就来了对TGT的性能优化（续) • 为每一个target增加一把锁 • Target event loop

0 码力 | 15 页 | 637.11 KB | 5 月前
3
Curve文件系统元数据持久化方案设计

1、inode、entry 的编码 2、KVStore Q&A 单靠 redis 的 AOF 机制能否保证数据不丢失? redis 的高可用、高可扩方案？ redis + muliraft 存在的问题？ redis 改造 vs 自己实现? redis 中哈希表实现的优点？参考前言根据之前讨论的结果，元数据节点的架构如下图所示，这里涉及到两部分需要持久化/编码的内容： Raft Log：记录 $value_length 保存编码后的 value© XXX Page 5 of 12 其他说明持久化文件中涉及到的数字均以小端序存储利用 fork 子进程 (COW) 的方式解决在持久化的过程中，读写冲突的问题以及性能问题实现 1、inode、entry 的编码给 inode、dentry 增加编码函数 // 这里要尽可能减少 key/value 编码后的字节数，这样同样的内存可以存入较多的 key/value 不丢失（这主要是 redis 基于性能考量，毕竟纯内存数据库，如果利用 WAL 每次写文件再 sync，那么性能就会下降很多）所以，单靠 redis 的方案是不行了. redis 的高可用、高可扩方案？主要是 redis cluster + 主从复制 (或者第三方 codis + 哨兵) redis cluster/codis 主要解决扩展性的问题，它会进行分片，每个 redis 实例保存分片的

0 码力 | 12 页 | 384.47 KB | 5 月前
3
Curve文件系统元数据管理

rename：rename /A/C到/B/E symbolic link： hardlink：生成一个hardlink /B/E，指向文件/A/C list：遍历/A目录 5.1.2 好处 5.1.2 问题 5.2 分片方式二：Inode按照inodeid进行分片，Dentry按照parentid进行分片 rename：rename /A/C到/B/E hardlink：生成一个hardlink /B/E，指向文件/A/C com/happyfish100/libfastcommon/tr ，(LGPL) ee/master/src hash table O(1)~O(n) O(n) + table 需要占用额外空间，性能和hash表的大小有关，最理想可以达到O(1)复杂度，最差O(n)复杂度。 c++ stl unordered_map moose，使用c实现 4、curve文件系统的元数据内存组织 link, symlink，rename的处理。 fastcfs的inode和dentry没有分开，两者在同一个结构体里面。这种方式如何应对硬链接？看了下fastcfs的实现，在硬链接这里是有问题的。考虑inode和dentry的内存组织形式，可以考虑hashmap，skiplist，btree等，但是无论选择哪种方式组织，节点都可以抽象成一个Key - Value的形式。 inode可以抽象成

0 码力 | 24 页 | 204.67 KB | 5 月前
3
NJSD eBPF 技术文档 - 0924版本

Curve⽂件系统性能⽹易数帆科技向东提纲 • 什么是Curve • Curve的应⽤场景及挑战 • Curve客户端⾯临问题及分析 • 什么是ebpf • 基于epbf的Curve Cache设计 • Curve社区介绍Curve是什么？ • Curve云原⽣软件定义存储 • Curve分布式块存储 • Curve分布式⽂件存储 • ⾼性能、易运维、云原⽣Curve⽂件系统框架和主要应⽤场景中间件数据存储场景 • ⽀持POSIX兼容的⽂件API • ⽀持低延迟的⽂件数据访问Curve⽂件系统⾯临的问题 • ⽤户态实现 • 稳定性/可靠性⾼ • 容易更新及维护 • 基于FUSE提供POSIX兼容⽂件接⼝ • 问题 • 相对kernel⽂件系统的实现(ext4, xfs)性能差异⼤，延迟⾼FUSE⽂件IO读写流程 • 场景1 pytorch example word_language_model 瓶颈在/dev/fuse通讯开销基于FUSE可能的优化点 • 降低内核与libfuse通讯延迟 • 基于⽂件属性的操作内核直接返回？ • 基于⽂件数据的操作先内核读写 cache？实现POSIX兼容API途径及问题 • 基于FUSE的实现 • curve / ceph / gluster • LD_PRELOAD重载⽂件系统系统调⽤ • vpp / f-stack / DirectFUSE •

0 码力 | 20 页 | 7.40 MB | 5 月前
3
Curve质量监控与运维 - 网易数帆

03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等多种场景自研的分布式存储系统：  高性能、低延迟  当前实现了高性能块存储，对接OpenStack和 K8s  网易内部线上无故障稳定运行近两年  已完整开源 • github主页： https://opencurve.github.io/ 时，确认哪些任务需要设计文档：  小需求（改动小）将实现思路记录到任务管理系统中（JIRA），即可进行开发；  大需求（新模块、复杂功能）需要输出独立设计文档，并进行评审；对于功能或性能影响较大的功能，还需要进行POC验证；评审和验证通过后才能启动开发工作。小需求实现思路开发大需求设计文档 POC 开发 7/33设计文档规范设计文档需要具备以下内容：  修订记录 0 v1.0.0-rc1 新功能 Bug修复 cherry-pick 11/33测试方法论从测试粒度看，测试可以分为单元测试、集成测试、系统测试；从测试角度看，测试可以分为常规测试、性能测试、异常测试、稳定性测试、混沌测试，等等  单元测试 1300+用例行覆盖80%+，分支覆盖70%+  集成测试 Given When Then 设计方法 500+用例  异常测试

0 码力 | 33 页 | 2.64 MB | 5 月前
3
Raft在Curve存储中的工程实践

程实践陈威Curve介绍 01 02 raft和braft 03 raft在Curve中的应用 05 Q&A 04 Curve对raft的优化项目背景 Curve是一个高性能、更稳定、易运维的云原生分布式存储系统，支持块存储和文件存储 2018~2021 Curve块存储 2021~2022 Curve文件存储 • 基于Openstack构建云计算平台 AI/大数据业务的快速增长 • 存储使用Ceph文件存储/HDFS • 成本/性能挑战 Curve块存储和文件存储均采用raft协议整体架构 • 对接OpenStack平台为云主机提供高性能块存储服务 • 对接Kubernetes为其提供RWO、RWX等类型的持久化存储卷 • 对接PolarFS作为云原生数据库的高性能存储底座，完美支持云原生数据库的存算分离架构 • Curve作为云存储中间件使用S3兼容的对象点初始状态一致的时候，保证节点之间状态一致。 raft日志复制RAFT协议简介 raft配置变更 • 配置：加入一致性算法的服务器集合。 • 集群的配置不可避免会发生变更，比如替换宕机的机器。直接配置变更可能出现双主问题 • 共同一致（joint consensus） • 集群先切换到一个过渡的配置(old + new)，一旦共同一致已经被提交，系统切换到新的配置(new)。RAFT协议简介日志压缩 •

0 码力 | 29 页 | 2.20 MB | 5 月前
3
CurveFS方案设计

补充文件空间分配，讨论与确认背景调研开源fs 性能对比可行性分析方案对比对比结论架构设计卷和文件系统元数据架构文件系统快照方案一：文件/目录级别快照方案二：文件系统快照关键点元数据设计数据结构索引设计文件空间管理开发计划及安排背景为更好的支持云原生的场景，Curve需要支持高性能通用文件系统，其中高性能主要是适配云原生数据库的场景。当前Curve com/team/km_curve/article/27909 性能对比并对以上文件系统在相同环境进行了元数据节点性能测试：。测试结果c开发的moosefs和fastcfs元数据性能远优于go开发的chubaofs和c开发的cephfs，理论上分析这个结果是合理的，分布式的元数据设调研测试计会涉及到多次rpc的交互。这里需要确认的一点是：我们需要怎样的元数据节点的性能？可行性分析方案对比根据上述调软/硬链接：目前是都不支持的。软链接可以通过标识文件类型解决；由于 prefix + parentid + filename 作为 key , filename 直接和 fileInfo 关联，硬链接无法支持 b. 性能 list：list在通用文件系统中是很常见的操作，目前 curve 的元数据缓存使用的 lru cache，因此 list 只能依赖 etcd 的 range 获取方式。如果需要对 list

0 码力 | 14 页 | 619.32 KB | 5 月前
3
Curve设计要点

新一代分布式存储系统 Curve 李小翠Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景：块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储，对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多，线上异常演练 • 已开源 • github主页： https://opencurve.github.io/ • github代码仓库： com/opencurve/curve 概述背景 01 02 03 04 总体设计系统特性近期规划背景 • 多个存储软件：SDFS、NEFS、NBS • 已有的开源软件：Ceph • 不能胜任性能、延迟敏感的场景 • 异常场景抖动较大（比如慢盘场景） • 去中心节点设计在集群不均衡的情况下需要人工运维 • 基于通用分布式存储构建上层存储服务背景 01 02 03 04 总体设计 1.244 3.2 3.1 0.998 4K随机写 4K随机读 61.12 % 67.8% 测试环境：6台服务器*20块SATA SSD，E5-2660 v4，256G，3副本场景高性能高性能 • quorum机制：raft • 轻量级快照 • io路径上的优化 • filepool落盘零放大 • 轻量级线性一致性读 • io路径上用户空间零拷贝 10卷4K随机读写IOPS

0 码力 | 35 页 | 2.03 MB | 5 月前
3
MySQL 兼容性可以做到什么程度

Single Source of Truth 问题背景数据孤岛怎么办？下游MySQL 怎么做 Binlog Maxwell DebeziumPolarDB-X 完全兼容 MySQL Binlog 可行性 • 多节点产生多个增量事件队列 • 不同队列中事件之间的顺序 • 分布式事务完整性 • DDL 引起的多 Schema 版本问题 • 扩缩容引起的队列增减 ? Maxwell PolarDB-X 全局 Binlog：完全兼容 • 与 MySQL Binlog 体验完全一致 • 保障分布式事务完整性 • 透明：下游系统或工具改造成本为零 • 实现复杂度高 Q: 分布式数据库有哪些问题要考虑Demo for Global Binlog with Flink CDCPolarDB-X Global Binlog 特性详情提供与 MySQL 生态下游透明对接能力产品体验 • Streamsets • mysql-binlog-connector-java • Flink CDC 性能指标 • 25w rps • 8GB 大事务 • 5s 延迟* 下一步 • 验证更多工具 • GTID • 多流业务系统上游 Single Source of Truth 问题背景已有系统迁移怎么办？下游Demo for ReplicationPolarDB-X Replication

0 码力 | 18 页 | 3.02 MB | 5 月前
3

共 28 条前往

页

分类

语言

格式

新一代云原生分布式存储

TGT服务器的优化

Curve文件系统元数据持久化方案设计

Curve文件系统元数据管理

NJSD eBPF 技术文档 - 0924版本

Curve质量监控与运维 - 网易数帆

Raft在Curve存储中的工程实践

CurveFS方案设计

Curve设计要点

MySQL 兼容性可以做到什么程度