搜索

pdf文档 vLLM v0.4.3 Documentation

1.02 MB 121 页 0 下载 6 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了vLLM项目,这是一个用于大规模语言模型(LLM)推理和部署的开源工具。文档详细描述了vLLM的安装配置、使用统计、性能调优、模型支持政策以及与多种平台的集成部署方法。内容包括如何优化GPU内存使用、处理KV缓存不足的预emption机制、实验性的分块预填充功能,以及如何通过社区驱动支持第三方模型。文档还提供了详细的环境要求、安装方法和部署示例,帮助用户快速上手使用vLLM。
AI总结
### vLLM v0.4.3 文档总结 #### 1. 基本信息 - **vLLM** 是一个快速且易于使用的大型语言模型(LLM)推理和 serving 库。 - **主要特点**: - 状态-of-the-art 推理吞吐量。 - 使用 PagedAttention 管理注意力键值内存。 - 连续批处理和优化的 CUDA/HIP 图。 - 支持多种量化方法(如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache)。 - 支持 NVIDIA 和 AMD GPU。 - 提供 OpenAI 兼容的 API 服务器。 #### 2. 环境变量配置 - **注意力后端选择**: - `VLLM_ATTENTION_BACKEND`:支持 `TORCH_SDPA`、`FLASH_ATTN`、`XFORMERS`、`ROCM_FLASH`。 - **KV 缓存空间**: - `VLLM_CPU_KVCACHE_SPACE`:默认为 4GB。 - **预编译 DAG API**: - `VLLM_USE_RAY_COMPILED_DAG`:启用可优化控制平面开销。 - **工作进程方法**: - `VLLM_WORKER_MULTIPROC_METHOD`:默认为 `spawn`。 #### 3. 使用统计收集 - **数据收集目的**: - 收集匿名使用数据,帮助开发团队了解硬件和模型配置的使用情况。 - **收集内容**: - 包括 UUID、提供商、CPU/内存信息、GPU 信息、模型架构、版本等。 - **数据隐私**: - 数据透明且不包含敏感信息,定期公开给社区。 - **退出统计收集**: - 设置 `VLLM_NO_USAGE_STATS` 或 `DO_NOT_TRACK` 环境变量,或创建 `~/.config/vllm/do_not_track` 文件。 #### 4. 性能与调优 - **预emption 机制**: - 用于释放 KV 缓存空间,减少系统卡顿。 - 建议通过增加 `gpu_memory_utilization`、减少 `max_num_seqs` 或 `max_num_batched_tokens`、增加 `tensor_parallel_size` 来减少预emption。 - **分块 Prefill**: - 通过 `--enable-chunked-prefill` 或 `enable_chunked_prefill=True` 启用。 - 默认优先级策略改为优先处理解码请求,以优化吞吐量。 #### 5. 模型支持政策 - **社区驱动支持**: - 鼓励社区贡献新模型。 - **测试等级**: - 严格一致性测试、输出合理性测试、运行时功能性测试。 - **问题解决**: - 用户可报告问题并提交修复 PR,社区协作解决问题。 #### 6. 安装 - **要求**: - 操作系统:Linux。 - Python 版本:3.8-3.11。 - GPU:计算能力 7.0 或更高(如 V100、T4、A100 等)。 - **安装方法**: - 使用 pip 安装:`pip install vllm`。 - 支持 CUDA 12.1 和 11.8 版本。 #### 7. 集成与部署 - **Docker 部署**: - 提供官方 Docker 镜像:`vllm/vllm-openai`。 - 支持 GPU 资源绑定和共享内存配置。 - **Kubernetes 部署**: - 使用 LWS 和 dstack 支持分布式推理。 - **云平台支持**: - 支持通过 SkyPilot 在 Kubernetes 和云平台扩展服务。 #### 8. 总结 - **核心功能**: - 高效的 LLM 推理和 serving。 - 强大的 KV 缓存管理和模型扩展能力。 - **用户建议**: - 根据需求调整环境变量和部署策略。 - 关注社区支持和模型更新,优化性能表现。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 109 页请下载阅读 -
文档评分
请文明评论,理性发言.