搜索

pdf文档 vLLM v0.6.1.post1 Documentation

1.28 MB 215 页 0 下载 5 浏览 0 评论 0 收藏
语言 格式 评分
英语
.pdf
3
摘要
文档介绍了vLLM v0.6.1.post1版本的功能和使用方法,包括动态加载和卸载LoRA适配器、支持Vision语言模型(VLMs)、性能调优策略、额外参数配置以及API客户端的使用示例。文档详细说明了如何通过命令行或HTTP请求加载和卸载LoRA适配器,介绍了离线推理和性能基准测试的触发方法,提供了采样参数的详细说明,并展示了如何优化模型性能以减少延迟和提高资源利用率。
AI总结
### vLLM v0.6.1.post1 文档总结 #### 1. 功能概述 vLLM 是一个支持大规模语言模型和视觉语言模型(VLM)的开源项目,提供高效的推理和调优功能。 #### 2. 主要功能 ##### 2.1 加载和卸载 LoRA 适配器 - **加载 LoRA 适配器**:通过发送 POST 请求到 `/v1/load_lora_adapter` 端点,提供适配器名称和路径。 ```bash curl -X POST http://localhost:8000/v1/load_lora_adapter \ -H "Content-Type: application/json" \ -d '{"lora_name":"sql_adapter","lora_path":"/path/to/sql-lora-adapter"}' ``` - **卸载 LoRA 适配器**:通过发送 POST 请求到 `/v1/unload_lora_adapter` 端点,指定适配器名称或 ID。 ```bash curl -X POST http://localhost:8000/v1/unload_lora_adapter \ -H "Content-Type: application/json" \ -d '{"lora_name":"sql_adapter"}' ``` ##### 2.2 视觉语言模型(VLM)支持 - vLLM 提供对 VLM 的实验性支持,支持列表详见官方文档。 - **注意事项**:VLM 支持可能包含破坏性更新,建议持续关注官方更新。 ##### 2.3 性能调优 - **预emption 机制**:当 KV 缓存空间不足时,vLLM 会抢占请求以释放资源。用户可通过以下方式优化: - 增加 `gpu_memory_utilization` - 减少 `max_num_seqs` 或 `max_num_batched_tokens` - 增加 `tensor_parallel_size` ##### 2.4 分块预加载(Chunked Prefill) - 该功能允许将大模型的预加载任务分块处理,提升性能。 - 启用方式: ```python llm = LLM(model="meta-llama/Llama-2-7b-hf", enable_chunked_prefill=True) ``` ##### 2.5 额外参数 - vLLM 支持 OpenAI API 之外的额外参数,例如: - `best_of`, `use_beam_search`, `top_k`, `min_p`, `repetition_penalty`, `length_penalty`, `early_stopping` - 用户可通过 API 客户端或 HTTP 请求传递这些参数。 #### 3. 已知问题 - **版本问题**:v0.5.2、v0.5.3 及其后续版本存在 ZMQ 引起的低概率挂起问题,建议升级到最新版本。 #### 4. 其他信息 - **资源**:提供《黑客指南》等技术文档,帮助开发者深入了解 vLLM 的内部机制。 - **社区活动**:定期举办 meetup,分享项目进展和技术经验。 - **赞助商**:感谢社区和多家公司对 vLLM 的支持。 #### 5. 总结 vLLM 提供了强大的模型推理和调优功能,支持 LoRA 适配器动态加载、VLM 使用、性能优化等特性,适合开发者和研究人员使用。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 203 页请下载阅读 -
文档评分
请文明评论,理性发言.