| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档主要介绍了vLLM项目的功能、安装方法、使用统计和指标收集,以及如何添加和管理新的模型。vLLM是一个用于大型语言模型(LLM)推理和部署的高性能库,支持多种量化方法和硬件配置。文档详细说明了数据收集的目的、内容以及如何监控系统性能和模型运行状态。同时,还提供了如何集成新的HuggingFace Transformers模型的指南。 | ||
| AI总结 | ||
### vLLM v0.4.1 文档总结
#### 1. 功能特点
- **高效性**:支持高性能推理,包括:
- 状态-of-the-art 服务吞吐量
- PagedAttention 技术
- 连续批处理
- CUDA/HIP 图优化
- 支持多种量化方法(如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache)
- **灵活性**:
- 与 HuggingFace 模型无缝集成
- 支持多种解码算法(如并行采样、束搜索)
- 张量并行支持
- 流式输出
- OpenAI 兼容 API 服务
- 支持 NVIDIA 和 AMD GPU
#### 2. 安装要求
- **操作系统**:Linux
- **Python 版本**:3.8-3.11
- **GPU**:计算能力 7.0 或更高(如 V100、T4、RTX20xx、A100、L4、H100 等)
- **ROCm 支持**:
- GPU 类型:MI200s、MI300、Radeon RX 7900 系列
- ROCm 版本:5.7 或 6.0
- PyTorch 版本:2.0.1/2.1.1/2.2
- 操作系统:Linux
#### 3. 性能监控与指标
- **时间指标**:
- 输出令牌时间分布(`time_per_output_token_seconds`)
- 时间到第一个令牌(`time_to_first_token_seconds`)
- **吞吐量指标**:
- 平均提示吞吐量(`avg_prompt_throughput_toks_per_s`)
- 平均生成吞吐量(`avg_generation_throughput_toks_per_s`)
- **缓存使用**:
- GPU KV 缓存使用率(`gpu_cache_usage_perc`)
- CPU KV 缓存使用率(`cpu_cache_usage_perc`)
#### 4. 使用数据收集
- **数据收集目的**:帮助开发团队了解常见硬件和模型配置,优先改进常用工作负载。
- **收集内容**:
- 匿名数据,不含敏感信息。
- 示例数据包括:UUID、云服务提供商、CPU/GPU 信息、模型架构等。
#### 5. 模型支持与测试
- **支持范围**:仅支持第三方模型。
- **测试标准**:
1. 严格一致性:与 HuggingFace Transformers 库的输出对比。
2. 输出合理性:检查输出的连贯性和错误。
3. 运行时功能性:检查模型是否能正常加载和运行。
- **社区反馈**:依赖社区报告问题或提交修复。
#### 6. 新模型添加指南
- **流程**:
1. 叉取 vLLM 仓库并从源码构建。
2. 根据模型架构复杂度,集成 HuggingFace Transformers 模型。
- **安装选项**:
- **推荐**:使用预装 Docker 镜像(适用于 ROCm 5.7)。
- **源码构建**:适用于自定义需求。
#### 7. 总结
vLLM 是一个高效且灵活的 LLM 推理和部署库,支持多种硬件和模型架构,特别适合需要高性能和大规模部署的场景。其匿名数据收集和社区驱动的模型支持模式,使其能够持续优化和扩展功能。 | ||
| 来源 | docs.vllm.ai | ||||
|---|---|---|---|---|---|
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余
89 页请下载阅读 -
文档评分














vLLM v0.4.1 Documentation