搜索

pdf文档 vLLM v0.5.0 Documentation

1.05 MB 132 页 0 下载 2 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了vLLM(版本0.5.0)的功能和使用方法。vLLM是一个快速且易于使用的大型语言模型(LLM)推理和 serving 库,支持多种模型和硬件配置。文档详细介绍了vLLM的核心功能,包括高效的推理性能、对多种模型的支持策略、使用统计收集以及对视觉语言模型(VLM)的实验性支持。此外,文档还提供了如何配置环境变量、使用不同模型以及部署API服务器的示例代码和说明。
AI总结
# vLLM 0.5.0 文档总结 ## 1. 模型支持政策 vLLM 采用社区驱动的方式支持第三方模型,核心原则包括: - **社区贡献**:鼓励用户通过 Pull Request 提交新模型支持,优先考虑输出合理性的模型。 - **最佳一致性**:在保证功能性和输出合理性的前提下,不强制与 `transformers` 等框架完全对齐。 - **问题解决**:用户需通过 PR 提交 bug 修复,并注意修复可能对其他模型的影响。 - **更新监控**:建议用户主动跟踪所用模型的代码提交历史。 - **资源分配**:重点支持用户关注度高、影响大的模型,冷门模型依赖社区维护。 ## 2. 核心功能 vLLM 是一个快速且易用的 LLM 推理和部署库,主要特点包括: - **高性能**: - �状语从句服务吞吐量处于行业领先水平。 - 支持 PagedAttention 和连续批处理技术,显著提升效率。 - 支持多种量化方法(如 GPTQ、AWQ 等)和低精度计算。 - **灵活性**: - 支持 HuggingFace 和 ModelScope 模型。 - 提供 OpenAI API 兼容服务,支持 NVIDIA 和 AMD GPU。 - 支持分布式推理(Tensor 并行)和多种解码算法(如平行采样、束搜索等)。 - **扩展性**: - 实验性支持视觉语言模型(VLM)和前缀缓存。 - 提供参数调节和自定义配置选项。 ## 3. 使用案例 ### 3.1 批量推理 vLLM 支持离线批量处理输入提示,适用于大规模生成任务: ```python from vllm import LLM, SamplingParams prompts = [ "Hello, my name is", "The president of the United States is", ... ] llm = LLM(model="facebook/opt-125m") outputs = llm.generate(prompts, SamplingParams(temperature=0.8, top_p=0.95)) ``` ### 3.2 OpenAI 兼容服务器 vLLM 可部署为 OpenAI API 的替代方案: ```bash $ python -m vllm.entrypoints.openai.api_server --model facebook/opt-125m ``` ## 4. 其他功能 - **视觉语言模型(VLM)**:支持单张图片输入,部分功能尚在实验阶段。 - **统计信息收集**:默认匿名收集使用数据,用于优化开发。 - **环境变量配置**:支持通过环境变量调整推理行为(如 `VLLM_USE_TRITON_FLASH_ATTN` 和 `CUDA_VISIBLE_DEVICES`)。 ## 5. 重要说明 - vLLM 本身不引入新模型,所有支持的模型均为第三方模型。 - 使用前需确保模型兼容性,可通过文档提供的示例代码验证。 通过以上功能,vLLM 提供了一个高效、灵活且易于扩展的 LLM 推理框架,适合开发者和研究人员快速部署和实验。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 120 页请下载阅读 -
文档评分
请文明评论,理性发言.