pdf文档 AI大模型千问 qwen 中文文档

835.78 KB 56 页 0 评论
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档详细介绍了Qwen1.5大模型的功能、配置和使用指南。Qwen1.5是阿里巴巴集团的一系列大型语言和多模态模型,具备自然语言理解、文本生成、视觉和音频理解等能力。该模型提供多种规模版本(0.5B至72B)和多种配置(基础模型和Chat模型),支持多语言处理、工具调用、RAG、角色扮演等功能。文档还提供了模型的微调方法,包括全参数微调、LoRA、Q-LoRA等,并介绍了如何通过SkyPilot在云端部署模型。性能评估部分展示了不同模型规模下的推理速度和内存占用情况。
AI总结
以下是对文档内容的中文总结: --- # 《AI大模型千问 Qwen 中文文档》总结 ## 1. 模型概述 Qwen 是阿里巴巴千问团队开发的一系列大型语言模型和多模态模型。其最新版本 **Qwen1.5** 已经上线,具有以下特点: - 提供多种模型规模(0.5B、1.8B、4B、7B、14B 和 72B 参数)。 - 每种规模均提供基础模型和 Chat 模型,聊天模型根据人类偏好进行校准。 - 支持多语言功能。 - 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等功能。 ## 2. 快速开始 通过 SkyPilot,可以在云端轻松部署 Qwen1.5 模型。以下是快速使用方法: 1. 使用 FastChat 启动 Chat Web UI: ```bash sky launch -c qwen-gui ./gui.yaml --env ENDPOINT=$(sky serve status --endpoint qwen) ``` 访问返回的 Gradio 链接即可使用 GUI 界面。 2. 通过调整温度和 top_p 值优化结果。 ## 3. 有监督微调 文档提供了基于 Hugging Face Trainer 的简单微调脚本,支持以下功能: - 单卡和多卡分布式训练。 - 全参数微调、LoRA、Q-LoRA 等方法。 - 通过调整超参数(如 `cutoff_len`)避免内存溢出。 微调示例: ```bash python src/train.py \ --model_name_or_path $MODEL_PATH \ --train_file $TRAIN_FILE \ --validation_file $VALIDATION_FILE \ --Gradient_Acceleration \ --output_dir $OUTPUT_PATH \ --overwrite_cache \ --overwrite_output_dir \ --warmup_steps 100 \ --weight_decay 0.1 \ --per_device_train_batch_size 4 \ --gradient_accumulation_steps 4 \ --learning_rate 5e-6 \ --num_train_epochs 3 \ --bf16 ``` ## 4. 数据准备与格式 使用 LLaMA-Factory 微调模型时,需将数据组织为以下格式: - **Alpaca 格式**: ```json [ { "instruction": "用户指令", "input": "用户输入", "output": "模型响应", "system": "系统提示", "history": "[...]" } ] ``` - **Sharegpt 格式**: ```json [ { "conversations": "[...]", "system": "系统提示", "tools": "工具描述" } ] ``` ## 5. 模型性能 Qwen1.5 的性能数据如下: - **Qwen1.5-72B-Chat**:速度和内存使用情况随输入长度和 GPU 数量变化。 - **Qwen1.5-14B**:在多卡条件下性能表现优秀,但部分场景内存占用未达到预期。 ## 6. community 与资源 - 欢迎访问官方博客、GitHub、Hugging Face、ModelScope 以及 Qwen1.5 Collection 获取更多信息。 - 加入社区:Discord 和微信群。 --- 以上是文档的核心内容总结,涵盖了模型功能、使用方法、微调方式及性能表现等关键信息。
P1
P2
P3
P4
P5
P6
P7
P8
P9
P10
P11
P12
下载文档到本地,方便使用
- 可预览页数已用完,剩余 44 页请下载阅读 -
文档评分
请文明评论,理性发言.