Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio 服务器 Alluxio在云端AI训练场景的性能好处 • 支持大规模的数据缓存 • 本地内存加速 • 支持数据预热 • LRU缓存管理 Object storage (Fuse) Worker (local) Worker (remote) Master Training POD Tier0: 1-2GB/S Short Circuit: 1-6GB/S Network: K8S node Alluxio Worker Pod RAM/SSD/HDD fuse K8S node K8S node Alluxio Worker Pod RAM/SSD/HDD fuse K8S node Alluxio Worker Pod RAM/SSD/HDD fuse TensorFlow TensorFlow Alluxio Master Pod file.readtype.default CACHE 默认的CACHE_PROMOTE会带来显著的性能开销 策略:1.优先本地加载缓存 2.避免数据震荡 3.避免数据冗余 1 2 3 3. Fuse性能调优 • 选择更高版本的kernel • 设置max_read=131072 • 定制libfuse2代码,支持配置Libfuse线程池 • 延长元数据缓存时间 建议 端到端的优化方案0 码力 | 22 页 | 11.79 MB | 1 年前3
sealos 以 kubernetes 为内核的云操作系统01 对接 firecracker cilium openebs 等技术 无性能损失的网络层计量 与隔离 rust 自研分布式文件系统 sealfs 直接对接 rustvmm 绕 开 fuse 02 client manger manger metadata data data metadata metadata Data and metadata store in different 不在磁盘级别提供高可用 所以高可用交给 KB rocketmq 这些应用自身去解决 业务起的有状态容器可用 sealfs 文件系统 sealfs 直接从容器拦截 IO,对接 sealfs 分布式文件系统,避免 fuse 用户态内核态反复横跳 在 Sealos 上使用 GPU 在 Sealos 上利用 Cilium + BPF 实现流量统计 Slide source credit to: How to Make0 码力 | 29 页 | 7.64 MB | 9 月前3
Kubernetes日志平台建设最佳实践-元乙��Trace�� ������ ������ ������ �� • ��������������� • ������������������ • ������ • ���� ������� �� •FUSE���� •All in DaemonSet ���� •����� •������ ��� •������ •������� Automation •����� •��ITOps��0 码力 | 30 页 | 53.00 MB | 1 年前3
共 3 条
- 1













