搜索

pdf文档 vLLM v0.6.1 Documentation

1.29 MB 215 页 0 下载 7 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档详细介绍了vLLM v0.6.1的缓存策略、基准测试、采样参数及模型管理。缓存机制通过哈希表管理KV块,优化内存使用和计算加速。支持多LoRA适配器和多模态模型,提升缓存效率。性能基准测试涵盖不同工作负载下的表现。采样参数支持多种生成策略,文档还提供了安装和配置指南。
AI总结
# vLLM v0.6.1 文档总结 ## 1. 功能概述 vLLM 是一个快速且易于使用的大型语言模型(LLM)推理和部署库,主要特点包括: - **高效推理**:通过 PagedAttention、连续批处理、CUDA/HIP 图和量化(如 GPTQ、AWQ 等)提升性能。 - **灵活部署**:支持多种设备(NVIDIA、AMD、Intel GPU/CPU、TPU、AWS Neuron 等)和分布式推理(Tensor 并行和 Pipeline 并行)。 - **多种解码算法**:支持平行采样、束搜索等高吞吐量解码方法。 - **多模态支持**:通过不同哈希方法处理图像、音频等多模态输入。 - **多 LoRA 支持**:通过哈希管理不同 LoRA 适配器的 KV 块缓存。 --- ## 2. 缓存管理 vLLM 使用基于哈希表的 KV 缓存策略,支持灵活的缓存管理: - **缓存机制**:通过哈希表缓存 KV 块,减少重复计算,提升性能。 - **驱逐策略**: - 当无空闲块时,优先驱逐引用计数为 0 的 KV 块。 - 若多个块引用计数为 0,优先驱逐最近未使用(LRU)的块。 - 若多个块访问时间相同,优先驱逐最长前缀末尾的块。 - **扩展支持**: - **多 LoRA**:通过在哈希中加入 LoRA ID 管理多适配器缓存,提升全局缓存命中率。 - **多模态**:支持图像感知哈希等方法处理不同输入模态。 --- ## 3. 基准测试 vLLM 提供两套基准测试: - **性能基准**:高频测试 vLLM 在不同工作负载下的性能,结果可在性能仪表盘查看。 - **夜间基准**:在 vLLM 重大更新时,对比其与 tgi、trt-llm 和 lmdeploy 的性能。 --- ## 4. 安装指南 - **系统要求**: - 操作系统:Linux。 - Python 版本:3.8-3.12。 - GPU:计算能力 7.0 或更高(如 V100、T4、RTX20xx 等)。 - **安装方式**: - 推荐使用conda 创建虚拟环境: ```bash conda create -n myenv python=3.10 -y conda activate myenv pip install vllm ``` - 提供 CUDA 12.1 和 CUDA 11.8 的预编译二进制文件。 --- ## 5. 采样参数 vLLM 支持 OpenAI API 的采样参数,包括: - `temperature`:控制采样随机性,值越低越确定。 - `top_p`:控制累积概率,值越大考虑更多候选。 - `top_k`:限制采样范围内的候选项数量。 - `best_of`:生成多个候选序列,返回最优结果。 - `presence_penalty` 和 `frequency_penalty`:分别惩罚新词和高频词的重复。 - `repetition_penalty`:惩罚提示和生成文本中的重复。 --- ## 6. 环境变量 vLLM 提供多个环境变量用于配置运行时行为: - `VLLM_USE_RAY_SPMD_WORKER`:启用 Ray 的编译 DAG API。 - `VLLM_ASSETS_CACHE`:指定下载资产的缓存路径。 - `VLLM_IMAGE_FETCH_TIMEOUT` 和 `VLLM_AUDIO_FETCH_TIMEOUT`:设置图像和音频抓取超时时间。 - `VLLM_ALLOW_LONG_MAX_MODEL_LEN`:允许指定超过模型最大长度的序列长度。 --- ## 7. 示例与扩展 - **Gradio 聊天机器人**:通过自定义参数实现 OpenAI 风格的聊天机器人。 - **Tensorize 模型**:支持快速将 vLLM 模型序列化为 Tensorizer 格式,适用于快速加载和推理。 --- ## 总结 vLLM 是一个高效、灵活且易于使用的 LLM 推理库,支持多模态、多 LoRA 和分布式部署,适合高性能和高吞吐量的场景需求。其缓存机制和基准测试功能进一步提升了性能和效率。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 203 页请下载阅读 -
文档评分
请文明评论,理性发言.