vLLM v0.6.1.post2 Documentation - IT文库

语言	格式	评分
英语	.pdf	3
摘要
The document provides detailed instructions on using the vLLM project, including how to dynamically load and unload LoRA adapters, support for Vision Language Models (VLMs), performance optimization strategies, and additional sampling parameters. It also covers experimental features like chunked prefill and beam search, as well as resources for contributors and sponsors. The document emphasizes the importance of monitoring preemptions and adjusting parameters for optimal performance.
AI总结
### vLLM v0.6.1.post2 文档总结 --- #### 1. 动态加载 LoRA 适配器 - 加载 LoRA 适配器：通过发送 POST 请求到 `/v1/load_lora_adapter` 端点，提供适配器名称和路径。 ```bash curl -X POST http://localhost:8000/v1/load_lora_adapter \ -H "Content-Type: application/json" \ -d '{"lora_name":"sql_adapter","lora_path":"/path/to/sql-lora-adapter"}' ``` - 卸载 LoRA 适配器：通过发送 POST 请求到 `/v1/unload_lora_adapter` 端点，提供适配器名称或 ID。 ```bash curl -X POST http://localhost:8000/v1/unload_lora_adapter \ -H "Content-Type: application/json" \ -d '{"lora_name":"sql_adapter"}' ``` --- #### 2. 视觉语言模型（VLM）支持 - vLLM 提供对 Vision Language Models (VLMs) 的实验性支持。 - 注意事项： - 目前支持的 VLM 列表详见文档。 - Vision 相关 CLI 参数已在 `0.5.1` 版本中移除，建议更新代码。 - `image_feature_size` 参数不再需要，内部自动计算。 --- #### 3. 性能与调优 - 预emption 机制： - 用于释放 KV 缓存空间，支持动态调整请求优先级。 - 预emption 可能会影响延迟，建议通过以下方式优化： - 增加 `gpu_memory_utilization`。 - 减少 `max_num_seqs` 或 `max_num_batched_tokens`。 - 增加 `tensor_parallel_size`。 - 分块预填（Chunked Prefill）： - 通过 `--enable-chunked-prefill` 或 `enable_chunked_prefill=True` 启用。 - 支持将大模型的预填操作分块处理，优化内存使用。 --- #### 4. 采样参数（Sampling Parameters） - 支持 OpenAI API 的采样参数，同时增加以下功能： - `best_of`：生成多个候选序列，从中选择最佳结果。 - `use_beam_search`：支持束搜索（Beam Search）。 - 参数说明： - `temperature`：控制生成的随机性（0 表示贪心采样，值越大越随机）。 - `top_p`：控制生成的累积概率，值越小生成越保守。 - `top_k`：限制生成的候选 token 数量。 - `presence_penalty` 和 `frequency_penalty`：分别惩罚新词和高频词的重复。 --- #### 5. 资源与工具 - 性能基准： - 通过提交 PR 标记 `perf-benchmarks` 和 `nightly-benchmarks` 触发基准测试。 - 详见文档了解基准环境、工作负载和指标。 - 贡献者资源： - 提供技术文档和工具，帮助贡献者了解 vLLM 的实现细节。 - 包括《Speculative Decoding》和《Lookahead Scheduling》等技术内容。 --- #### 6. 示例与工具 - Gradio 聊天机器人服务器： - 提供一个基于 OpenAI API 的聊天机器人界面，支持自定义参数。 - 示例代码展示了如何通过 Gradio 搭建交互界面。 - 模型示例： - 提供使用 `LLM` 类的代码示例，展示如何加载模型和生成文本。 - 示例代码展示了如何配置模型参数和处理生成结果。 --- #### 7. 社区与支持 - 定期 Meetup： - 在旧金山湾区举办定期技术交流会，分享项目进展和行业经验。 - 会议资料和视频可参考文档。 - 赞助商： - 感谢多家企业和组织对 vLLM 项目的支持，包括 a16z、AMD、AWS、NVIDIA 等。 --- #### 总结 vLLM v0.6.1.post2 提供了强大的语言模型和视觉语言模型支持，支持动态加载/卸载 LoRA 适配器，优化性能和资源利用率，并通过丰富的采样参数和工具支持用户和开发者。文档内容涵盖功能使用、性能调优、贡献资源和社区支持，适合开发者和研究人员深入了解和使用 vLLM。

来源	docs.vllm.ai

P1

P2

P3

P4

P5

P6

P7

P8

P9

P10

P11

P12

下载文档到本地，方便使用

- 可预览页数已用完，剩余 203 页请下载阅读 -

文档评分

copilot

文档

3667

文章

0

码力

900

个性签名

暂无个性签名