搜索

pdf文档 vLLM v0.5.2 Documentation

1.15 MB 166 页 0 下载 23 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
The document provides detailed information about the vLLM v0.5.2 library, including installation requirements, usage statistics collection, production metrics, and performance tips. It also covers experimental support for Vision Language Models (VLMs) and the configuration options for various backend setups. The library is designed for fast and efficient LLM inference with features like continuous batching, optimized CUDA kernels, and support for multiple GPU architectures.
AI总结
《vLLM v0.5.2 Documentation》主要介绍了vLLM(一个高性能的大语言模型推理和部署库)的功能、安装配置、使用统计、生产指标、性能优化以及对多模态模型的支持等内容。以下是总结的核心信息: ### 1. **vLLM简介** vLLM 是一个快速且易于使用的库,专注于大语言模型(LLM)的推理和 serving。其主要特点包括: - **高性能**:支持paged attention、连续批处理、高效的注意力键值内存管理等技术,显著提升推理吞吐量。 - **灵活性**:支持多种后端(如 CUDA/HIP)、多种解码算法(如并行采样、束搜索)以及分布式推理(如张量并行和 pipeline 并行)。 - **多模态支持**:实验性支持视觉语言模型(VLM),目前仅支持单张图像输入。 --- ### 2. **安装与配置** #### **系统要求** - **操作系统**:Linux - **Python版本**:3.8-3.11 - **GPU要求**:Compute capability 7.0 或更高(如 V100、T4、A100、L4 等) #### **安装方法** 1. **使用 pip 安装**: ```bash pip install vllm ``` 2. **通过 Docker 安装**: ```bash docker build -f Dockerfile.openvino -t vllm-openvino-env . docker run -it --rm vllm-openvino-env ``` #### **配置选项** 文档中提供了多个环境变量,用于控制 vLLM 的行为: - **图像超时**:`VLLM_IMAGE_FETCH_TIMEOUT`(默认 5 秒) - **KV 缓存空间**:支持 CPU 和 OpenVINO 后端的缓存空间配置 - **注意力后端**:支持 `TORCH_SDPA`、`FLASH_ATTN`、`XFORMERS` 等 - **量化支持**:支持 GPTQ、AWQ 等量化方法 - **日志配置**:`VLLM_LOGGING_LEVEL`(默认 INFO) --- ### 3. **生产指标与监控** vLLM 提供了以下指标,可通过 `/metrics` 端点暴露: - **请求状态**:运行中的请求数、等待处理的请求数、交换到 CPU 的请求数 - **缓存使用**:GPU 和 CPU KV 缓存的使用百分比 - **迭代统计**:前传中的 token 数、预emption 次数等 --- ### 4. **使用统计** vLLM 默认会收集匿名使用数据,以帮助开发团队了解硬件和模型配置的使用情况。收集的数据包括: - 系统信息(如 CPU、GPU、内存) - 模型架构 - vLLM 版本 - 环境信息(如 dtype、并行大小) 这些数据用于优先解决最常见的工作负载问题。 --- ### 5. **性能优化** 文档提供了以下性能优化建议: - **KV 缓存空间**:根据硬件配置设置 `VLLM_OPENVINO_KVCACHE_SPACE`,以支持更多并行请求。 - **量化权重**:通过 `VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON` 启用 U8 权重压缩。 - **最佳配置**:推荐使用以下命令进行性能测试: ```bash VLLM_OPENVINO_KVCACHE_SPACE=100 VLLM_OPENVINO_CPU_KV_CACHE_PRECISION=u8 VLLM_OPENVINO_ENABLE_QUANTIZED_WEIGHTS=ON \ python3 vllm/benchmarks/benchmark_throughput.py --model meta-llama/Llama-2-7b-chat-hf --dataset vllm/benchmarks/ShareGPT_V3_unfiltered_cleaned_split.json --enable-chunked-prefill --max-num-batched-tokens 256 ``` --- ### 6. **视觉语言模型(VLM)支持** vLLM 提供了对视觉语言模型(VLM)的实验性支持: - **单张图像输入**:目前仅支持单张图像与文本提示结合使用。 - **多模态数据格式**:通过 `multi_modal_data` 字典传递图像数据。 - **未来改进**:团队正在优化用户体验,未来可能会增加更多功能。 --- ### 7. **其他功能** - **日志记录**:支持自定义日志路径和级别。 - **分布式文件系统支持**:模型权重可通过分布式文件系统加载。 - **量化与混合精度**:支持 FP8 和其他量化方法。 --- ### 总结 《vLLM v0.5.2 Documentation》全面介绍了 vLLM 的功能、安装、配置、性能优化以及对多模态模型的支持。文档强调了 vLLM 在高性能推理和灵活部署方面的优势,并提供了详细的配置选项和性能调优建议。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 154 页请下载阅读 -
文档评分
请文明评论,理性发言.