搜索

pdf文档 vLLM v0.5.0.post1 Documentation

1.09 MB 144 页 0 下载 8 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档主要介绍了vLLM v0.5.0.post1版本的功能和配置信息,包括系统统计、请求统计、API参考、额外参数支持、生成示例以及多模态模型的实验性支持。文档详细说明了如何通过LLM类进行模型初始化、参数配置、生成文本,以及如何支持多模态输入和性能监控。文档还提供了具体的代码示例和模型支持策略,帮助用户更好地理解和使用vLLM推理引擎。
AI总结
### vLLM v0.5.0.post1 文档总结 #### 1. **核心功能与指标** - **监控指标**: - **系统状态**:包括运行中的请求数、等待处理的请求数和交换到 CPU 的请求数。 - **缓存使用**:提供 GPU 和 CPU KV 缓存的使用百分比。 - **迭代统计**:记录预emption次数、提示 token 数和生成 token 数。 - **时间统计**:提供首次生成 token 的时间分布和每个输出 token 的时间分布。 - **请求统计**:支持延迟直方图(end-to-end 请求延迟)和请求参数直方图(如 prompt token 数、generation token 数、best_of 和 n 参数)。 - **API 支持**: - 支持 OpenAI API 的大部分参数,但不包括 `tools` 和 `tool_choice` 等参数。 - 提供对 OpenAI Vision API 的实验性兼容支持。 #### 2. **模型支持与扩展** - **模型兼容性**: - vLLM 支持第三方模型,鼓励社区贡献和维护。 - 通过 `transformers` 等框架的模型进行适配,支持 HuggingFace Hub 和 ModelScope 模型仓库。 - 提供环境变量 `VLLM_USE_MODELSCOPE` 切换到 ModelScope 仓库。 - **多模态支持**: - 通过 `vllm.multimodal` 包提供对多模态模型的实验性支持。 - 支持图像输入,用户可通过 `PromptStrictInputs` 传递多模态数据。 - 需要通过 `MULTIMODAL_REGISTRY` 注册模型的输入处理方式。 #### 3. **离线推理与批处理** - **离线推理**: - 支持前缀生成和批处理推理,适用于本地推理场景。 - 提供示例代码,展示如何使用前缀生成和批处理功能。 - **在线推理**: - 支持通过 HTTP 服务器以 OpenAI Vision API 兼容的方式进行在线推理。 - 支持单张图像输入,未来计划扩展支持多图像输入。 #### 4. **硬件加速与性能优化** - **AWS Neuron 支持**: - 提供对 AWS Neuron 的支持,适用于需要高性能推理的场景。 - 示例代码展示了如何配置模型参数以支持 Neuron 设备。 #### 5. **使用示例** - **基础使用**: ```python from vllm import LLM llm = LLM(model="TinyLlama/TinyLlama-1.1B-Chat-v1.0") output = llm.generate("Hello, my name is") print(output) ``` - **多模态示例**: ```python from vllm import LLM from vllm.inputs import ImagePixelData llm = LLM(model="llava-hf/llava-1.5-7b-hf", image_input_type="pixel_values") prompt = "![]()" * 576 + "\nUSER: What is the content of this image?\nASSISTANT:" outputs = llm.generate({"prompt": prompt, "multi_modal_data": ImagePixelData(image)}) ``` #### 6. **模型支持策略** - **社区驱动**:鼓励用户和社区贡献新模型的支持。 - **最佳一致性**:尽力保持与现有框架(如 transformers)的兼容性。 - **问题修复**:依赖社区报告和修复问题,用户需主动监控模型更新。 #### 7. **总结** vLLM 提供了一个灵活且强大的框架,支持多种模型和推理方式,适合需要高性能和多模态处理的场景。其对 OpenAI API 的兼容性和硬件加速功能(如 AWS Neuron)使其成为推理任务的理想选择。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 132 页请下载阅读 -
文档评分
请文明评论,理性发言.