搜索

pdf文档 vLLM v0.4.1 Documentation

894.09 KB 101 页 0 下载 12 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了vLLM项目的功能、安装方法、使用统计和指标收集,以及如何添加和管理新的模型。vLLM是一个用于大型语言模型(LLM)推理和部署的高性能库,支持多种量化方法和硬件配置。文档详细说明了数据收集的目的、内容以及如何监控系统性能和模型运行状态。同时,还提供了如何集成新的HuggingFace Transformers模型的指南。
AI总结
### vLLM v0.4.1 文档总结 #### 1. 功能特点 - **高效性**:支持高性能推理,包括: - 状态-of-the-art 服务吞吐量 - PagedAttention 技术 - 连续批处理 - CUDA/HIP 图优化 - 支持多种量化方法(如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache) - **灵活性**: - 与 HuggingFace 模型无缝集成 - 支持多种解码算法(如并行采样、束搜索) - 张量并行支持 - 流式输出 - OpenAI 兼容 API 服务 - 支持 NVIDIA 和 AMD GPU #### 2. 安装要求 - **操作系统**:Linux - **Python 版本**:3.8-3.11 - **GPU**:计算能力 7.0 或更高(如 V100、T4、RTX20xx、A100、L4、H100 等) - **ROCm 支持**: - GPU 类型:MI200s、MI300、Radeon RX 7900 系列 - ROCm 版本:5.7 或 6.0 - PyTorch 版本:2.0.1/2.1.1/2.2 - 操作系统:Linux #### 3. 性能监控与指标 - **时间指标**: - 输出令牌时间分布(`time_per_output_token_seconds`) - 时间到第一个令牌(`time_to_first_token_seconds`) - **吞吐量指标**: - 平均提示吞吐量(`avg_prompt_throughput_toks_per_s`) - 平均生成吞吐量(`avg_generation_throughput_toks_per_s`) - **缓存使用**: - GPU KV 缓存使用率(`gpu_cache_usage_perc`) - CPU KV 缓存使用率(`cpu_cache_usage_perc`) #### 4. 使用数据收集 - **数据收集目的**:帮助开发团队了解常见硬件和模型配置,优先改进常用工作负载。 - **收集内容**: - 匿名数据,不含敏感信息。 - 示例数据包括:UUID、云服务提供商、CPU/GPU 信息、模型架构等。 #### 5. 模型支持与测试 - **支持范围**:仅支持第三方模型。 - **测试标准**: 1. 严格一致性:与 HuggingFace Transformers 库的输出对比。 2. 输出合理性:检查输出的连贯性和错误。 3. 运行时功能性:检查模型是否能正常加载和运行。 - **社区反馈**:依赖社区报告问题或提交修复。 #### 6. 新模型添加指南 - **流程**: 1. 叉取 vLLM 仓库并从源码构建。 2. 根据模型架构复杂度,集成 HuggingFace Transformers 模型。 - **安装选项**: - **推荐**:使用预装 Docker 镜像(适用于 ROCm 5.7)。 - **源码构建**:适用于自定义需求。 #### 7. 总结 vLLM 是一个高效且灵活的 LLM 推理和部署库,支持多种硬件和模型架构,特别适合需要高性能和大规模部署的场景。其匿名数据收集和社区驱动的模型支持模式,使其能够持续优化和扩展功能。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 89 页请下载阅读 -
文档评分
请文明评论,理性发言.