vLLM v0.4.1 Documentation - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档主要介绍了vLLM项目的功能、安装方法、使用统计和指标收集，以及如何添加和管理新的模型。vLLM是一个用于大型语言模型（LLM）推理和部署的高性能库，支持多种量化方法和硬件配置。文档详细说明了数据收集的目的、内容以及如何监控系统性能和模型运行状态。同时，还提供了如何集成新的HuggingFace Transformers模型的指南。
AI总结
### vLLM v0.4.1 文档总结 #### 1. 功能特点 - 高效性：支持高性能推理，包括： - 状态-of-the-art 服务吞吐量 - PagedAttention 技术 - 连续批处理 - CUDA/HIP 图优化 - 支持多种量化方法（如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache） - 灵活性： - 与 HuggingFace 模型无缝集成 - 支持多种解码算法（如并行采样、束搜索） - 张量并行支持 - 流式输出 - OpenAI 兼容 API 服务 - 支持 NVIDIA 和 AMD GPU #### 2. 安装要求 - 操作系统：Linux - Python 版本：3.8-3.11 - GPU：计算能力 7.0 或更高（如 V100、T4、RTX20xx、A100、L4、H100 等） - ROCm 支持： - GPU 类型：MI200s、MI300、Radeon RX 7900 系列 - ROCm 版本：5.7 或 6.0 - PyTorch 版本：2.0.1/2.1.1/2.2 - 操作系统：Linux #### 3. 性能监控与指标 - 时间指标： - 输出令牌时间分布（`time_per_output_token_seconds`） - 时间到第一个令牌（`time_to_first_token_seconds`） - 吞吐量指标： - 平均提示吞吐量（`avg_prompt_throughput_toks_per_s`） - 平均生成吞吐量（`avg_generation_throughput_toks_per_s`） - 缓存使用： - GPU KV 缓存使用率（`gpu_cache_usage_perc`） - CPU KV 缓存使用率（`cpu_cache_usage_perc`） #### 4. 使用数据收集 - 数据收集目的：帮助开发团队了解常见硬件和模型配置，优先改进常用工作负载。 - 收集内容： - 匿名数据，不含敏感信息。 - 示例数据包括：UUID、云服务提供商、CPU/GPU 信息、模型架构等。 #### 5. 模型支持与测试 - 支持范围：仅支持第三方模型。 - 测试标准： 1. 严格一致性：与 HuggingFace Transformers 库的输出对比。 2. 输出合理性：检查输出的连贯性和错误。 3. 运行时功能性：检查模型是否能正常加载和运行。 - 社区反馈：依赖社区报告问题或提交修复。 #### 6. 新模型添加指南 - 流程： 1. 叉取 vLLM 仓库并从源码构建。 2. 根据模型架构复杂度，集成 HuggingFace Transformers 模型。 - 安装选项： - 推荐：使用预装 Docker 镜像（适用于 ROCm 5.7）。 - 源码构建：适用于自定义需求。 #### 7. 总结 vLLM 是一个高效且灵活的 LLM 推理和部署库，支持多种硬件和模型架构，特别适合需要高性能和大规模部署的场景。其匿名数据收集和社区驱动的模型支持模式，使其能够持续优化和扩展功能。

来源	docs.vllm.ai

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 89 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名