vLLM v0.5.3.post1 Documentation - IT文库

语言	格式	评分
英语	.pdf	3
摘要
This document provides comprehensive guidance on using vLLM, a fast and flexible library for large language model inference and serving. It covers installation requirements, supported models, and performance optimization techniques. Key features include support for Vision Language Models (VLMs), experimental features like chunked prefill, and strategies for managing preemption in batched requests. The documentation also includes details on integrating with popular HuggingFace models and deploying vLLM on various platforms.
AI总结
### vLLM v0.5.3.post1 文档总结 #### 1. 功能概述 - vLLM 是一个快速且易于使用的大型语言模型（LLM）推理和部署库，支持多种加速技术，包括： - 状态-of-the-art 推理吞吐量 - PagedAttention 技术优化内存管理 - 连续批处理和高效 GPU 执行 - 多种量化方法（GPTQ、AWQ、SqueezeLLM、FP8 KV Cache） - 支持多 GPU 分布式推理（Tensor 并行和 Pipeline 并行） - OpenAI 兼容 API 服务器 - 实验性支持视觉语言模型（VLMs）和多 LoRA。 #### 2. 安装与依赖 - 操作系统要求：Linux（支持 Ubuntu 等） - Python 版本：3.8-3.11 - GPU 要求：计算能力 7.0 或更高（如 V100、T4、RTX20xx 等） - 安装方式： ```bash # 创建新环境（推荐） conda create -n myenv python=3.10 -y conda activate myenv pip install vllm ``` #### 3. 视觉语言模型（VLMs）支持 - 实验性支持：目前仅支持单张图片输入，后续将优化用户体验。 - 初始化 VLM： ```python llm = LLM(model="llava-hf/llava-1.5-7b-hf") ``` - 输入格式： ```python prompt = "USER: ![]()\nWhat is the content of this image?\nASSISTANT:" outputs = llm.generate({ "prompt": prompt, "multi_modal_data": {"image": PIL.Image.open(...)} }) ``` #### 4. 性能与调优 - 预emption 机制：当 KV 缓存空间不足时，系统会抢占请求以释放资源。可通过以下方式优化： - 增加 `gpu_memory_utilization` - 减少 `max_num_seqs` 或 `max_num_batched_tokens` - 增加 `tensor_parallel_size` - Chunked Prefill：支持将大模型前传分块处理，通过设置 `enable_chunked_prefill=True` 启用。 #### 5. OpenVINO 后端优化 - 环境变量配置： - `VLLM_OPENVINO_KVCACHE_SPACE`：设置 KV 缓存空间（默认 40GB） - `VLLM_OPENVINO_CPU_KV_CACHE_PRECISION`：控制 KV 缓存精度（默认根据平台自动选择） - `VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS`：启用 U8 权重压缩（默认关闭） - 性能建议： ```bash VLLM_OPENVINO_KVCACHE_SPACE=100 VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON \ python3 vllm/benchmarks/benchmark_throughput.py --model meta-llama/Llama-2-7b-chat-hf --dataset vllm/benchmarks/ShareGPT_V3_unfiltered_cleaned_split.json --enable-chunked-prefill --max-num-batched-tokens 256 ``` #### 6. 集成与扩展 - SkyPilot 集成：支持通过 SkyPilot 在云上部署和扩展 vLLM 服务。 ```bash pip install skypilot-nightly sky check ``` - HuggingFace 集成：支持部署 HuggingFace 模型（如 Meta-Llama-3-8B-Instruct）。 #### 7. 其他功能 - 额外参数：支持 OpenAI API 之外的自定义参数，可通过 `extra_body` 或 `OpenAI client` 传递。 - 日志与统计： ```bash export VLLM_NO_USAGE_STATS=1 mkdir -p ~/.config/vllm && touch ~/.config/vllm/do_not_track ``` #### 8. 总结 vLLM 是一个高效、灵活且功能丰富的 LLM 推理框架，支持多种加速技术、多模态模型和分布式部署。用户可通过文档提供的安装、调优和集成指南快速上手，并根据需求选择合适的功能模块进行优化。

来源	docs.vllm.ai

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 131 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名