开源中国 2023 大模型(LLM)技术报告
LLM 基础设施:向量数据库/数据库向量支持 向量数据库是专门用于存储和检索向量数据的数据库,它可以为 LLM 提供高效的存储和检索能力。通过数据向量化,实现了 在向量数据库中进行高效的相似性计算和查询。 根据向量数据库的的实现方式,可以将向量数据库大致分为两类: 原生的向量数据库专门为存储和检索向量而设计, 所管理的数据是基于对象或数据点的向量表示进行 组织和索引。 包括 等均属于原生向量数据库。 开发工具有: :帮助用户极致优化 给大模型的提示词(prompt),使得对大语 言模型提问时,可以获得更理想的输出。 :用于语义搜索、LLM 编排和语言模 型工作流的一体化嵌入数据库,可以使用 SQL、对象存储、主题建模、图形分析和多模 态索引进行矢量搜索。 :专注以 Sketch、PSD、静态 图片等形式的视觉稿作为输入,通过智能化技 术一键生成可维护的前端代码,包含视图代码、 数据字段绑定、组件代码、部分业务逻辑代码。0 码力 | 32 页 | 13.09 MB | 1 年前3普通人学AI指南
言结构和信息,使其能够生成连贯的文本、回答问题、撰写文章、进行对话等。 6 Figure 3: AI 问答工具 ChatGPT 经过特别训练,可以理解和生成人类语言,从而在多种应用场景中提 供辅助,包括聊天机器人、写作辅助、信息查询等。 2.1.2 Claude Claude 是 Anthropic 公司开发的一系列大型语言模型,它设计用于执行多种涉 及语言、推理、分析和编码的任务。 2.1.3 通义千问 通义千问(Q JetBrains AI AI 编程开发助手,集成在 JetBrains 系列开发工具中,提升编码效率。 9 Figure 6: AI 编程工具 2.4.3 AirOps 用于生成和修改 SQL 语句的工具,旨在简化数据库操作。 2.4.4 ChatDev 面壁智能开发的 AI 智能体开发平台,支持创建和部署智能对话系统。 2.4.5 solo Mozilla 开源项目,提供零代码网站开发功能,易于使用。0 码力 | 42 页 | 8.39 MB | 7 月前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
测试结果受到数据样本、测试环境、AI抽卡、提示词模板等因素影响,仅供参考,无法作为决策制定、质量评估或产品验证的最终依据。 爬虫数据采集 目前DeepSeek R1、Open AI o3mini、Kimi k1.5支持联网查询网址,Claude 3.5 sonnet暂不支持; 四个模型均能根据上传的网页代码,对多个网址链接进行筛选、去重,完全提取出符合指令要求的所有网址链接并形成列表; 在复杂爬虫任务上,DeepSeek DeepSeek-V3。未来版本将通过在软件 工程数据上实施拒绝采样或在强化学习过程中引入 异步评估来提高效率。 DeepSeek R1当前只针对中文和英文进行 了优化,这可能在处理其他语言的查询时导 致语言混杂问题。DeepSeek计划在未来的 更新中解决这一局限。 场景拓展:创新推动,垂直深耕 医疗领域 D e e p S e e k 已 经 在 医 疗 辅 助 诊 断 方 面 多步骤自主研究、端到端强化学习、深度信息整合 实际使用 图源@宝玉 在 ChatGPT 中,选择「message composer」中的 deep research 并输入 查询 可以附加文件或电子表格,为问题添 加上下文。一旦开始运行,侧边栏将 显示所采取的步骤和使用的来源摘要。 1.多步骤 自主研究 2.端到端强化学习 3.深度信息整合 输入 提示 文本、图像、0 码力 | 85 页 | 8.31 MB | 7 月前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
并传真到斯坦福预约中心 传统人工预约流程 AI辅助预约流程 传真识别智能体 接到传真,人工查看病历 利用多模态大模型,识别传真病历, 并自动录入数据库 数字人打电话给患者,预约就诊时间 大模型查询保险知识库,自动生成理赔申请, 提交保险公司 就诊预约智能体 保险报告生成智能体 人工打电话给患者,预约就诊时间 病人到医院就诊 人工填写理赔申请,提交保险公司 病人到医院就诊 社区医生将患者病历传真到斯坦福预约中心0 码力 | 76 页 | 5.02 MB | 5 月前3清华大学 普通人如何抓住DeepSeek红利
快速了解行业情况和市场趋势 DeepSeek可以整合行业报告、市场分析、竞争对手信 息等数据,帮助新员工快速掌握行业动态。 操作步骤 上传行业报告、市场分析文档、竞争对手资料等到 DeepSeek。 使用搜索功能查询“电子元器件行业现状”、“未来发 展趋势”等关键词,生成简洁的分析报告。 优势 通过DeepSeek的数据分析功能,快速生成行业概览, 节省了手动整理的时间。 通过DeepSeek的多维度分析,深入了解行业的竞争格0 码力 | 65 页 | 4.47 MB | 7 月前3DeepSeek从入门到精通(20250204)
文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 • 错 误 分 析 与 修 复 建议 • 代 码 性 能0 码力 | 103 页 | 5.40 MB | 8 月前3OpenAI 《A practical guide to building agents》
(blocklists, input length limits, regex filters) to prevent known threats like prohibited terms or SQL injections. Output validation Ensures responses align with brand values via prompt engineering and0 码力 | 34 页 | 7.00 MB | 5 月前3Trends Artificial Intelligence
Azure AI Foundry expansion • NLWeb • Model Context Protocol (MCP) integration • Entra Agent ID • SQL Server 2025 • Windows Subsystem for Linux Open- Source • GitHub Copilot Chat Extension • Aurora0 码力 | 340 页 | 12.14 MB | 4 月前3
共 9 条
- 1