vLLM v0.4.3 Documentation - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档介绍了vLLM项目，这是一个用于大规模语言模型（LLM）推理和部署的开源工具。文档详细描述了vLLM的安装配置、使用统计、性能调优、模型支持政策以及与多种平台的集成部署方法。内容包括如何优化GPU内存使用、处理KV缓存不足的预emption机制、实验性的分块预填充功能，以及如何通过社区驱动支持第三方模型。文档还提供了详细的环境要求、安装方法和部署示例，帮助用户快速上手使用vLLM。
AI总结
### vLLM v0.4.3 文档总结 #### 1. 基本信息 - vLLM 是一个快速且易于使用的大型语言模型（LLM）推理和 serving 库。 - 主要特点： - 状态-of-the-art 推理吞吐量。 - 使用 PagedAttention 管理注意力键值内存。 - 连续批处理和优化的 CUDA/HIP 图。 - 支持多种量化方法（如 GPTQ、AWQ、SqueezeLLM、FP8 KV Cache）。 - 支持 NVIDIA 和 AMD GPU。 - 提供 OpenAI 兼容的 API 服务器。 #### 2. 环境变量配置 - 注意力后端选择： - `VLLM_ATTENTION_BACKEND`：支持 `TORCH_SDPA`、`FLASH_ATTN`、`XFORMERS`、`ROCM_FLASH`。 - KV 缓存空间： - `VLLM_CPU_KVCACHE_SPACE`：默认为 4GB。 - 预编译 DAG API： - `VLLM_USE_RAY_COMPILED_DAG`：启用可优化控制平面开销。 - 工作进程方法： - `VLLM_WORKER_MULTIPROC_METHOD`：默认为 `spawn`。 #### 3. 使用统计收集 - 数据收集目的： - 收集匿名使用数据，帮助开发团队了解硬件和模型配置的使用情况。 - 收集内容： - 包括 UUID、提供商、CPU/内存信息、GPU 信息、模型架构、版本等。 - 数据隐私： - 数据透明且不包含敏感信息，定期公开给社区。 - 退出统计收集： - 设置 `VLLM_NO_USAGE_STATS` 或 `DO_NOT_TRACK` 环境变量，或创建 `~/.config/vllm/do_not_track` 文件。 #### 4. 性能与调优 - 预emption 机制： - 用于释放 KV 缓存空间，减少系统卡顿。 - 建议通过增加 `gpu_memory_utilization`、减少 `max_num_seqs` 或 `max_num_batched_tokens`、增加 `tensor_parallel_size` 来减少预emption。 - 分块 Prefill： - 通过 `--enable-chunked-prefill` 或 `enable_chunked_prefill=True` 启用。 - 默认优先级策略改为优先处理解码请求，以优化吞吐量。 #### 5. 模型支持政策 - 社区驱动支持： - 鼓励社区贡献新模型。 - 测试等级： - 严格一致性测试、输出合理性测试、运行时功能性测试。 - 问题解决： - 用户可报告问题并提交修复 PR，社区协作解决问题。 #### 6. 安装 - 要求： - 操作系统：Linux。 - Python 版本：3.8-3.11。 - GPU：计算能力 7.0 或更高（如 V100、T4、A100 等）。 - 安装方法： - 使用 pip 安装：`pip install vllm`。 - 支持 CUDA 12.1 和 11.8 版本。 #### 7. 集成与部署 - Docker 部署： - 提供官方 Docker 镜像：`vllm/vllm-openai`。 - 支持 GPU 资源绑定和共享内存配置。 - Kubernetes 部署： - 使用 LWS 和 dstack 支持分布式推理。 - 云平台支持： - 支持通过 SkyPilot 在 Kubernetes 和云平台扩展服务。 #### 8. 总结 - 核心功能： - 高效的 LLM 推理和 serving。 - 强大的 KV 缓存管理和模型扩展能力。 - 用户建议： - 根据需求调整环境变量和部署策略。 - 关注社区支持和模型更新，优化性能表现。

来源	docs.vllm.ai

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 109 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名