综合其他 · 人工智能

DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence

0 码力 | 58 页 | 4.27 MB | 1 月前
3

本文介绍了DeepSeek-V4系列模型，包括DeepSeek-V4-Pro和DeepSeek-V4-Flash，两者均支持100万个令牌的上下文长度。通过引入混合注意力机制（结合CSA和HCA）和优化计算与存储，DeepSeek-V4系列在推理效率和KV缓存大小上相较于前代有显著提升。模型在知识、推理、长上下文和世界知识任务中表现出色，尤其是在1M令牌上下文设置下，DeepSeek-V4-Pro的性能优于其前身。文档还详细描述了模型的架构改进、训练过程和评估结果，展示了其在多个基准测试中的优势。
vLLM v0.5.2 Documentation

0 码力 | 166 页 | 1.15 MB | 3 月前
3

The document provides detailed information about the vLLM v0.5.2 library, including installation requirements, usage statistics collection, production metrics, and performance tips. It also covers experimental support for Vision Language Models (VLMs) and the configuration options for various backend setups. The library is designed for fast and efficient LLM inference with features like continuous batching, optimized CUDA kernels, and support for multiple GPU architectures.
vLLM v0.5.5 Documentation

0 码力 | 193 页 | 1.22 MB | 3 月前
5

文档详细介绍了vLLM v0.5.5版本的功能和性能。主要包括性能基准测试的触发条件和结果展示，KV缓存管理策略，支持多LoRA适配器和多模态模型的缓存方法，以及如何集成新模型的步骤。此外，文档还列出了vLLM的参数配置选项和环境变量设置。
vLLM v0.4.2 Documentation

0 码力 | 99 页 | 982.83 KB | 3 月前
3

文档主要介绍了vLLM（一个高性能的大语言模型推理和 serving 库）的功能、安装方法、配置选项以及使用统计。vLLM支持多种 GPU 和 CPU 硬件配置，提供高效的注意力机制和连续批处理功能，适用于大规模模型推理。文档还详细说明了如何通过使用不同的环境变量和配置文件来优化模型性能，并提供了集成第三方模型的指南。
vLLM v0.4.1 Documentation

0 码力 | 101 页 | 894.09 KB | 3 月前
3

文档主要介绍了vLLM项目的功能、安装方法、使用统计和指标收集，以及如何添加和管理新的模型。vLLM是一个用于大型语言模型（LLM）推理和部署的高性能库，支持多种量化方法和硬件配置。文档详细说明了数据收集的目的、内容以及如何监控系统性能和模型运行状态。同时，还提供了如何集成新的HuggingFace Transformers模型的指南。
vLLM v0.6.0 Documentation

0 码力 | 201 页 | 1.26 MB | 3 月前
3

文档介绍了vLLM v0.6.0的功能和配置，包括插件加载、使用统计收集、缓存策略、基准测试、采样参数以及模型添加指南。vLLM支持多种硬件和模型架构，通过PagedAttention和分批处理优化性能，提供高效的KV缓存管理策略，并支持多种量化技术以提升推理效率。
vLLM v0.4.3 Documentation

0 码力 | 121 页 | 1.02 MB | 3 月前
3

文档介绍了vLLM项目，这是一个用于大规模语言模型（LLM）推理和部署的开源工具。文档详细描述了vLLM的安装配置、使用统计、性能调优、模型支持政策以及与多种平台的集成部署方法。内容包括如何优化GPU内存使用、处理KV缓存不足的预emption机制、实验性的分块预填充功能，以及如何通过社区驱动支持第三方模型。文档还提供了详细的环境要求、安装方法和部署示例，帮助用户快速上手使用vLLM。
vLLM v0.5.0.post1 Documentation

0 码力 | 144 页 | 1.09 MB | 3 月前
3

文档主要介绍了vLLM v0.5.0.post1版本的功能和配置信息，包括系统统计、请求统计、API参考、额外参数支持、生成示例以及多模态模型的实验性支持。文档详细说明了如何通过LLM类进行模型初始化、参数配置、生成文本，以及如何支持多模态输入和性能监控。文档还提供了具体的代码示例和模型支持策略，帮助用户更好地理解和使用vLLM推理引擎。
vLLM v0.5.3.post1 Documentation

0 码力 | 143 页 | 1.07 MB | 3 月前
3

This document provides comprehensive guidance on using vLLM, a fast and flexible library for large language model inference and serving. It covers installation requirements, supported models, and performance optimization techniques. Key features include support for Vision Language Models (VLMs), experimental features like chunked prefill, and strategies for managing preemption in batched requests. The documentation also includes details on integrating with popular HuggingFace models and deploying vLLM on various platforms.
vLLM v0.6.1 Documentation

0 码力 | 215 页 | 1.29 MB | 3 月前
3

文档详细介绍了vLLM v0.6.1的缓存策略、基准测试、采样参数及模型管理。缓存机制通过哈希表管理KV块，优化内存使用和计算加速。支持多LoRA适配器和多模态模型，提升缓存效率。性能基准测试涵盖不同工作负载下的表现。采样参数支持多种生成策略，文档还提供了安装和配置指南。

共 28 条前往

页

搜索