开源中国 2023 大模型(LLM)技术报告
生成、文本摘要、翻译等任务中展现了强大的通用性。 本报告从技术人视角出发,将深入探讨 LLM 技术的背景、 基础设施、应用现状,以及相关的工具和平台。 2 / 32 LLM Tech Map 向量数据库 数据库向量支持 大模型框架、微调 (Fine Tuning) 大模型训练平台与工具 基础设施 LLM Agent 备案上线的中国大模型 知名大模型 知名大模型应用 大模型 04 向量数据库/数据库向量支持 为大模型提供高效的存储和检索能力 大模型框架及微调 (Fine Tuning) 大模型框架提供基本能力和普适性,而微调 则是实现特定应用和优化性能的关键环节 大模型训练平台&工具 提供了在不同硬件和环境中训练大语言模型 所需的基础设施和支持 编程语言 以 Python 为代表 5 / 32 LLM 基础设施:向量数据库/数据库向量支持 向量数据库是专门用于存储和检索向量数据的数据库,它可以为 LLM 提供高效的存储和检索能力。通过数据向量化,实现了 在向量数据库中进行高效的相似性计算和查询。 根据向量数据库的的实现方式,可以将向量数据库大致分为两类: 原生的向量数据库专门为存储和检索向量而设计, 所管理的数据是基于对象或数据点的向量表示进行 组织和索引。 包括 等均属于原生向量数据库。 除了选择专业的向量数据库,对传统数据库添加0 码力 | 32 页 | 13.09 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
能做什么? 要怎么做? 效果如何? 一 能做什么? 数据挖掘 数据分析 数据采集 数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 用户在不同科研需求下得到充分支持。 增强版绘图功能:增强版具备绘图功能,可通过可视化 图示(如文献关键词共现图)直观展示综述内容,帮助 用户更好理解和呈现研究成果。 无数据检索:以现有真实数据库作为支撑,通过关键词 检索,自动搜集相关文献并生成综述报告,目前只支持 英文检索。 低重复率:结合现有查重机制与AI技术,在内容生成阶 段引入重复检测与优化策略,从源头上降低重复率风险, 所生成的综述普通重复率与AIGC重复率均在5%以下。 无限双语数据导入:支持中文与英文文献的导入,并且 文献数据量没有限制,能够轻松处理中文文献的系统性 梳理,以及国际文献的跨语言分析。 幻觉克服:以现有真实数据库作为支撑,借助由专家设 计撰写的提示词,精准规避AI生成中的幻觉问题。 高规范格式输出:所生成的综述文档格式规范、结构清 晰,符合学术论文标准,用户几乎无需进行二次整理。 中科院PubScholar平台0 码力 | 85 页 | 8.31 MB | 7 月前3普通人学AI指南
AI 编程开发助手,集成在 JetBrains 系列开发工具中,提升编码效率。 9 Figure 6: AI 编程工具 2.4.3 AirOps 用于生成和修改 SQL 语句的工具,旨在简化数据库操作。 2.4.4 ChatDev 面壁智能开发的 AI 智能体开发平台,支持创建和部署智能对话系统。 2.4.5 solo Mozilla 开源项目,提供零代码网站开发功能,易于使用。 20 码力 | 42 页 | 8.39 MB | 7 月前3【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502
智能体应用案例:定义角色、分解流程 社区医生手工填写患者病历 并传真到斯坦福预约中心 传统人工预约流程 AI辅助预约流程 传真识别智能体 接到传真,人工查看病历 利用多模态大模型,识别传真病历, 并自动录入数据库 数字人打电话给患者,预约就诊时间 大模型查询保险知识库,自动生成理赔申请, 提交保险公司 就诊预约智能体 保险报告生成智能体 人工打电话给患者,预约就诊时间 病人到医院就诊 人工填写理赔申请,提交保险公司0 码力 | 76 页 | 5.02 MB | 5 月前3人工智能安全治理框架 1.0
形态安全和伦理安全。如果用户输入的提示词存在不良内容,在模型安全防护 机制不完善的情况下,有可能输出违法有害内容。 (b)混淆事实、误导用户、绕过鉴权的风险。人工智能系统及输出内容 等未经标识,导致用户难以识别交互对象及生成内容来源是否为人工智能系统, 难以鉴别生成内容的真实性,影响用户判断,导致误解。同时,人工智能生成 图片、音频、视频等高仿真内容,可能绕过现有人脸识别、语音识别等身份认 证机制,导致认证鉴权失效。0 码力 | 20 页 | 3.79 MB | 28 天前3清华大学 普通人如何抓住DeepSeek红利
目标:在不伤害长辈感情的情况下,妥善处理亲戚的催婚问题,维护家庭和谐,同时保护自己的个人空间和选择。 对话技巧 p 使用“我”语句:如“我感到…”,避免指责。 p 运用幽默:如“现在我还是专心工作,等以后有了 对象再来麻烦您操心!” p 避免冲突:寻找共同点,如“您说得对,婚姻很重 要,我会认真考虑的。” p 提前沟通:与父母提前商量,减少惊讶。 妥善处理策略 p 表达感激,建立沟通基础 示例:微笑着回应,“谢谢您关心,我很感激您的爱0 码力 | 65 页 | 4.47 MB | 7 月前3DeepSeek从入门到精通(20250204)
应对威胁。 c.解释签名式防御如何类似于抗体,能够快速识别和中和已知威胁。 d.比较系统隔离和清理过程与人体发烧的相似性,都是为了控制“感染”扩散。 e.讨论威胁情报数据库如何类似于免疫记忆,使系统能够更快地应对重复出现的威胁。 (3)深入探讨启示: a.分析免疫系统的适应性如何启发自适应安全系统的设计。 b.探讨免疫系统的分层防御策略如何应用于网络安全的纵深防御概念。0 码力 | 104 页 | 5.37 MB | 7 月前3清华大学 DeepSeek 从入门到精通
应对威胁。 c.解释签名式防御如何类似于抗体,能够快速识别和中和已知威胁。 d.比较系统隔离和清理过程与人体发烧的相似性,都是为了控制“感染”扩散。 e.讨论威胁情报数据库如何类似于免疫记忆,使系统能够更快地应对重复出现的威胁。 (3)深入探讨启示: a.分析免疫系统的适应性如何启发自适应安全系统的设计。 b.探讨免疫系统的分层防御策略如何应用于网络安全的纵深防御概念。0 码力 | 103 页 | 5.40 MB | 8 月前3
共 8 条
- 1