超大规模深度学习在美团的应用-余建平模型可变计算路径 运行阶段 计算图裁剪 模型训练框架 • 应用场景——离线预计算 模型召回,ANN检索 粗排模型,降低线上计算量 • 分布式Sharding 模型分片存储,支持超大规模模型 数据并行计算,加速Optimizer计算 • 低频特征过滤 Counting Bloom Filter 概率方式 • 模型数据通路 Base + Delta方式 • Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大 单分片4个9的可用性 16分片整体可用性:99.99% ^ 16 = 99.84% 64分片整体可用性:99.99% ^ 64 = 99.36% 128分片整体可用性:99.99% ^ 128 = 98.72% • Backup Request Jeff Dean在解决BigTable高扇出时提出的方案 PS的长尾效应 Backup Request0 码力 | 41 页 | 5.96 MB | 1 年前3
AI大模型千问 qwen 中文文档tokenizer.save_pretrained(quant_path) 很遗憾,save_quantized 方法不支持模型分片。若要实现模型分片,您需要先加载模型,然后使用来自 transformers 库的 save_pretrained 方法来保存并分片模型。除此之外,一切操作都非常简单。祝您 使用愉快! 1.9 GGUF 最近,在社区中本地运行 LLM 变得越来越流行,其中使用0 码力 | 56 页 | 835.78 KB | 1 年前3
微博在线机器学习和深度学习实践-黄波线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求0 码力 | 36 页 | 16.69 MB | 1 年前3
共 3 条
- 1













