参数配置 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

普通人学AI指南

. . . . . 27 5.2 docker 下载 MaxKB . . . . . . . . . . . . . . . . . . . . . . . . . 27 5.3 docker 配置 MaxKB . . . . . . . . . . . . . . . . . . . . . . . . . 29 5.4 打开 MaxKB 网页 . . . . . . . . . . . . . . . . . . . . 32 5.5 构建第一个私人知识库 . . . . . . . . . . . . . . . . . . . . . . . . 34 5.6 MaxKB 配置本地 llama3 . . . . . . . . . . . . . . . . . . . . . . 37 5.7 创建知识库应用 . . . . . . . . . . . . . . . 自适应学习能力。AGI 的研发目标是创造出可以广泛地模拟人类认知能力的智能系统。 1.3 大模型大模型通常指的是大规模的人工智能模型，这类模型通过训练大量的数据来获得广泛的知识和能力。这些模型通常具有庞大的参数数量，能够处理复杂的任务，如自然语言理解、图像识别、语音识别等。闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其高效的学习能力和强大的通用性而受到关注。

0 码力 | 42 页 | 8.39 MB | 8 月前
3
Deepseek R1 本地部署完全手册

为技术团队提供完整的本地部署指南，涵盖硬件配置、国产芯⽚适配、量化⽅案、云端替代⽅案及完整671B MoE模型的Ollama部署⽅法。核⼼提示：个⼈⽤户：不建议部署32B及以上模型，硬件成本极⾼且运维复杂。企业⽤户：需专业团队⽀持，部署前需评估ROI（投资回报率）。⼆、本地部署核⼼配置要求 1. 模型参数与硬件对应表模型参数 Windows 配置要求 Mac 配置要求适⽤场景 1.5B - 内存: 32GB（M3 Max） - 存储: 20GB 复杂推理、技术⽂档⽣成 32B+ 企业级部署（需多卡并联）暂不⽀持科研计算、⼤规模数据处理 2. 算⼒需求分析模型参数规模计算精度最低显存需求最低算⼒需求 DeepSeek-R1 (671B) 671B FP8 ≥890GB 2*XE9680（16*H20 GPU） DeepSeek-R1-Distill- MXN系列⽀持70B模型BF16推理，显存利⽤率提升 30% 等效RTX 3090 海光 DCU 适配V3/R1模型，性能对标NVIDIA A100 等效A100（BF16） 2. 国产硬件推荐配置模型参数推荐⽅案适⽤场景 1.5B 太初T100加速卡个⼈开发者原型验证 14B 昆仑芯K200集群企业级复杂任务推理 32B 壁彻算⼒平台+昇腾910B集群科研计算与多模态处理四、云端部署替代⽅案

0 码力 | 7 页 | 932.77 KB | 8 月前
3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单

复杂操作，等待平台处理完成即可。  综述生成：根据智能分析结果，平台自动生成结构化的文献综述文本内容和可视化图表，用户可直接获取完整的综述报告，也可根据需要进行自定义调整，如综述主题、目标、参数等。知网研学平台官网：https://aiplus.cnki.net/sumup/sumup  输入关键词：进入官网后，在搜索框键入关键词进行文献检索。  选取文章：勾选想要分析的20篇文献。 D e e p S e e k 成立 2 0 2 3 年 1 1 月 2 日首个开源代码大模型 DeepSeek Coder发布 2 0 2 3 年 1 1 月 2 9 日推出670亿参数的通用大模型 D e e p S e e k L L M ，包括 7 B 和67B的base及chat版本发布新一代推理模型 D e e p S e e k - R 1 FP8混合精度训练 • 推理效率提升：蒸馏后的模型参数量大幅减少，例如 DeepSeek-R1-Distill-Qwen-7B的参数量仅为7B，相比原始的DeepSeek-R1（671B参数），计算复杂度显著降低。 • 性能优化：在代码和数学基准测试中，蒸馏技术显著提升了模型性能。例如，在基准测试中，蒸馏后的DeepSeek-V2.5模型在Pas

0 码力 | 85 页 | 8.31 MB | 8 月前
3
DeepSeek图解10页PDF

DeepSeek 三个比较实际的好处： • 本教程接入的是 DeepSeek 推理模型 R1，开源免费，性能强劲 • 本教程搭建方法零成本，不需花一分钱。 • 为了照顾到大部分读者，推荐的搭建方法已将电脑配置要求降到最低，普通电脑也能飞速运行。 1.2 DeepSeek 本地部署三个步骤一共只需要三步，就能做到 DeepSeek 在本地运行并与它对话。第一步，使用的是 ollama 管理各种不同大模型，ollama 接下来，咱们先从较为基础的概念开始。 2.1 LLM 基础概念模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b，这里的 1.5b, 7b、8b 代表什么？b 是英文的 billion，意思是十亿，7b 就是 70 亿，8b 就是 80 亿，70 亿、80 亿是指大模型的神经元参数（权重参数 weight+bias）的总量。目前大模型都是基于 Transformer Transformer 架构，并且是很多层的 Transformer 结构，最后还有全连接层等，所有参数加起来 70 亿，80 亿，还有的上千亿。教程作者：郭震，工作 8 年目前美国 AI 博士在读，公众号：郭震 AI，欢迎关注获取更多原创教程。资料用心打磨且开源，是为了帮助更多人了解获取 AI 知识，严禁拿此资料引流、出书、等形式的商业活动通用性更强。大模型和我们自己基于某个特定数据集（如

0 码力 | 11 页 | 2.64 MB | 8 月前
3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502

AI不仅是技术革新，更是思维方式和社会结构的变革国家产业个人企业政企、创业者必读人工智能发展历程（一）  从早期基于规则的专家系统，走向基于学习训练的感知型AI  从基于小参数模型的感知型AI，走向基于大参数模型的认知型AI  从擅长理解的认知型AI，发展到擅长文字生成的生成式AI  从语言生成式AI，发展到可理解和生成声音、图片、视频的多模态AI  从生成式AI，发展到推理型AI 先做得更大，然后探索能做多小政企、创业者必读 DeepSeek出现之前的十大预判之五知识的质量和密度决定大模型能力  高质量数据、合成数据使模型知识密度的快速增长  大模型能以更少的参数量达到更高的性能  360联合北大研发：5%参数量逼近Deepseek-R1满血性能 18政企、创业者必读 DeepSeek出现之前的十大预判之六成本越来越低  过去一年，大模型成本「自由落体」  国外：G 认为大模型的能力无法进一步得到质的提升开辟强化学习新范式从预训练Scaling Law转变为强化学习Scaling Law 大数据+大参数+大算力的预训练Scaling Law的边际效应递减 • 人类构造的训练数据已达上限 • 万亿参数规模之后，继续增大参数规模难以带来质的提升 • 训练算力成本和工程化难度大幅上升强化学习Scaling Law • 利用合成数据解决数据用尽问题

0 码力 | 76 页 | 5.02 MB | 6 月前
3
清华大学普通人如何抓住DeepSeek红利

针对每个小节单独提问，例如： “写一段‘2.1 功能分区’的内容，要求包含自动化立体仓库、AGV调度中心、冷链专区的技术参数，用数据列表形式呈现。” 关键技巧： p 数据嫁接：若缺乏具体数据，直接让AI生成合理虚构值（标注“示例”规避风险）： p “假设园区占地500亩，日均处理包裹量50万件，请计算自动化分拣设备的配置数量，用表格展示。” p 模板复制：对同类章节（如3.1/3.2/3.3）使用相同指令模板，仅替换关键词。场景1：1小时内写完一个1万字的项目书第四阶段：10分钟——用AI优化与格式伪装 p统一话术： “将以下段落改写成政府报告风格，加入‘数字化转型’‘双碳战略’等关键词：{粘贴原文}” p生成图表：指令：“将上文‘设备配置表’转换成LaTeX格式的三线表。”插入图表后，自动增加方案“厚度”。 p最终润色： “检查以下方案书逻辑漏洞，列出3个可能被客户质疑的点，并给出应对答案。” p关键提醒： ü 保命优先级：计算模型，对比5年内的总成本并推荐最优解。" "分析近三年新能源汽车销量数据(附CSV), 说明： ① 增长趋势与政策关联性； ② 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" "设计一款智能家居产品，要求： ① 解决独居老人安全问题； ② 结合传感器网络和Al预警； ③ 提供三种不同技术路线的原型草图说明。" 决策需求实战技巧：

0 码力 | 65 页 | 4.47 MB | 8 月前
3
人工智能安全治理框架 1.0

（c）鲁棒性弱风险。由于深度神经网络存在非线性、大规模等特点，人工智能易受复杂多变运行环境或恶意干扰、诱导的影响，可能带来性能下降、决策错误等诸多问题。- 4 - 人工智能安全治理框架（d）被窃取、篡改的风险。参数、结构、功能等算法核心信息，面临被逆向攻击窃取、修改，甚至嵌入后门的风险，可导致知识产权被侵犯、商业机密泄露，推理过程不可信、决策输出错误，甚至运行故障。（e）输出不可靠风险。生成式人工智能可能产生保数据来源清晰、途径合规。建立完善的数据安全管理制度，确保数据安全性和质量，以及合规使用，防范数据泄露、流失、扩散等风险，人工智能产品终止下线时妥善处理用户数据。（c）研发者应确保模型算法训练环境的安全性，包括网络安全配置和数据加密措施等。（d）研发者应评估模型算法潜在偏见，加强训练数据内容和质量的抽查检测，设计有效、可靠的对齐算法，确保价值观风险、伦理风险等可控。（e）研发者应结合目标市场适用法律要求和风险管理要求，评估人工智

0 码力 | 20 页 | 3.79 MB | 1 月前
3
DeepSeek从入门到精通(20250204)

重新计算p值并判断显著性。" �实战技巧：分析需求 "分析近三年新能源汽车销量数据（附CSV），说明： ① 增长趋势与政策关联性； ② 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" �实战技巧：执行需求 �实战技巧： "将以下C语言代码转换为Python，要求： ① 保持时间复杂度不变； ② 使用numpy优化数组操作； ③ 输出带时间测试案例的完整代码。" 策略：应用示例 �话题选择原则 • 与内容高相关性 • 活跃度适中的话题 • 避免过度竞争的热门话题 �标签使用策略 • 核心话题前置 • 相关话题补充 • 品牌话题植入话题配置要求：主话题：[话题名称] 相关话题：2—3个位置要求： - 主话题在开头 - 相关话题在正文 - 品牌话题在结尾选择标准： - 话题活跃度[范围] - 竞争度评估 - 相关性判断设计反直觉表达传播策略： - 话题标签选择 - 关键意见领袖互动设计 - 评论引导策略应用示例 �内容节奏 • 发布频率：依据账号定位和粉丝活跃度设定 • 内容分类：不同类型内容的比例配置 • 互动时间：明确重点互动的时间段请帮我制定微博账号的内容排期规划：账号信息： - 定位：[填写账号定位] - 目标受众：[受众属性] - 当前粉丝量：[数量]

0 码力 | 104 页 | 5.37 MB | 8 月前
3
清华大学 DeepSeek 从入门到精通

重新计算p值并判断显著性。" �实战技巧：分析需求 "分析近三年新能源汽车销量数据（附CSV），说明： ① 增长趋势与政策关联性； ② 预测2025年市占率，需使用ARIMA模型并解释参数选择依据。" �实战技巧：执行需求 �实战技巧： "将以下C语言代码转换为Python，要求： ① 保持时间复杂度不变； ② 使用numpy优化数组操作； ③ 输出带时间测试案例的完整代码。" 策略：应用示例 �话题选择原则 • 与内容高相关性 • 活跃度适中的话题 • 避免过度竞争的热门话题 �标签使用策略 • 核心话题前置 • 相关话题补充 • 品牌话题植入话题配置要求：主话题：[话题名称] 相关话题：2—3个位置要求： - 主话题在开头 - 相关话题在正文 - 品牌话题在结尾选择标准： - 话题活跃度[范围] - 竞争度评估 - 相关性判断设计反直觉表达传播策略： - 话题标签选择 - 关键意见领袖互动设计 - 评论引导策略应用示例 �内容节奏 • 发布频率：依据账号定位和粉丝活跃度设定 • 内容分类：不同类型内容的比例配置 • 互动时间：明确重点互动的时间段请帮我制定微博账号的内容排期规划：账号信息： - 定位：[填写账号定位] - 目标受众：[受众属性] - 当前粉丝量：[数量]

0 码力 | 103 页 | 5.40 MB | 9 月前
3
开源中国 2023 大模型(LLM)技术报告

(Fine Tuning) 大模型框架指专门设计用于构建、训练和部署大型机器学习模型和深度学习模型的软件框架。这些框架提供了必要的工具和库，使开发者能够更容易地处理大量的数据、管理巨大的网络参数量，并有效地利用硬件资源。微调（Fine Tuning）是在大模型框架基础上进行的一个关键步骤。在模型经过初步的大规模预训练后，微调是用较小、特定领域的数据集对模型进行后续训练，以使其更好选择预训练模型：选取一个已经在大量数据上进行过预训练的模型作为起点； 2.准备任务特定数据：收集与目标任务直接相关的数据集，这些数据将用于微调模型； 3.微调训练：在任务特定数据上训练预训练的模型，调整模型参数以适应特定任务； 4.评估：在验证集上评估模型性能，确保模型对新数据有良好的泛化能力； 5.部署：将性能经验证的模型部署到实际应用中去。微调的过程也是分类模型训练的过程 (图源：https://medium 的算力指的是执行这些模型所需的计算资源。这包括用于训练和运行模型的硬件（如 GPU 或 TPU）、内存、存储空间以及处理大量数据的能力。LLM 需要非常强大的算力来处理、理解和生成文本，因为它们涉及到数十亿甚至数万亿个参数的训练和推理。 LLM 的基石是算力，而算力的基石是硬件，硬件的性能直接影响着计算任务的速度、效率和能力。是全球领先的 GPU 制造商，提供了强大的图形处理单元，专门用于深度学习和AI计算。

0 码力 | 32 页 | 13.09 MB | 1 年前
3

共 12 条前往

页

分类

语言

格式