2024 中国开源开发者报告等多款移动友好型模型。其中,最新发布的 GLM Edge 1.5B 模型通过与 高通 GenAI 扩展的联合优化,在搭载骁龙 8 Gen 4 处理器的手机上实现了每秒 65 个 tokens 的推理速度,接近人类语音的平均输出速率。尽管存在电池续航和内存占用过大等挑战, 端上模型代表了 AI 技术隐私保护和成本优化的未来方向。中国在这一领域的探索,为行业提供 了宝贵经验。 推理扩展法则的潜力释放 通过推 限制的基座的可能性也很高。小应 用开发商很可能很容易获得一个低成本 serving 的“量化小基座”。 “7B”是一个 magic number!无论是 RAG 里的向量表征模型,还是文生图、文本识别 (OCR)、语音合成(TTS)、人脸识别等等垂直领域,一个 1B~7B 的小模型已经可以满足很 多生产、应用需要,并且效果也在逐步推高【8,9,10】。这些模型,作为智能体的“三头六臂”, 4. 多模态对齐很可能给基座模型带来质的提升 最新研究发现,在没有预先约束和约定下,不同 模态领域的最强模型正在向着某个世界模型认知领域 收缩【15】,AI 模型对不同概念的数字化表达(向量 表征)会逐步趋同,构建对这个世界的统一认知。这 也符合我们人类对世界的认知:人类通过语言文字这 种符号,将不同模态的信号统一地表达,并在脑中构 建了某种受限于当前科技水平的统一模型,这是人类 意识、社会沟通的前提。0 码力 | 111 页 | 11.44 MB | 9 月前3
网易数帆 领先的数字化转型技术与服务提供商 2021智能标签 信息抽取 语音识别 语种识别 音频指纹 语音合成 声纹识别 唱歌识别 文本纠错 文本情绪 文本生成 对话系统 意图识别 短文本相似度 视频指纹 人脸识别 水印识别 特征提取 OCR 智能抠图 质量分析 内容属性 内容分析理解 版权保护 字幕制作 视频生产 视频修复 内容生产管理 智能封面 自动歌词 语音交互 人机协作运营 创新体验 创新体验 易智字幕工具 易智语音工具 音视频效率工具 行业应用 产品 解决方案 语音技术 自然语言处理 计算机视觉 能力 组件 技术领先 算法能力行业领先,多次斩获 国内外技术竞赛最高奖项。 实践成熟 长期服务网易集团内大量业 务及产品,实践验证成熟可 靠。 贴合行业 产品和解决方案更贴合用户 的业务场景,提高用户体验。 部署灵活 支持公有云和私有化部署方 案,用户根据需要灵活使用。 网易数帆旗下人工智能技术与服务品牌 聚焦于多媒体业务领域,基于多年的行业深耕,积累出丰富的技术成功与落地应用经验。可提供多媒体内容理解、音 视频效率工具、语音/NLP/CV 能力组件等产品和服务,助力企业智能化升级,拓展智慧生产力。 PRODUCT 多媒体内容解析 综合运用 CV、语音、NLP 等技术,针对视频、图像、音频、文本等 多媒体内容进行基础识别与解析,获得离散的内容表示信息。 综合内容理解 基于离散的0 码力 | 43 页 | 884.64 KB | 1 年前3
国家人工智能产业综合标准化体系建设指南(2024版)个部分,如图 1 所示。其中,基础共性标准是人 工智能的基础性、框架性、总体性标准。基础支撑标准主要 规范数据、算力、算法等技术要求,为人工智能产业发展夯 实技术底座。关键技术标准主要规范人工智能文本、语音、 图像,以及人机混合增强智能、智能体、跨媒体智能、具身 智能等的技术要求,推动人工智能技术创新和应用。智能产 品与服务标准主要规范由人工智能技术形成的智能产品和 服务模式。赋能新型工业化标准主要规范人工智能技术赋能 框架的适配要求、人工智能计算任务调度、分布式计算等软硬件 协同任务的交互协议、执行效率和协同性能等标准。 (三)关键技术标准 关键技术标准主要包括机器学习、知识图谱、大模型、自然 语言处理、智能语音、计算机视觉、生物特征识别、人机混合增 强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、 模型表达和格式、模型效果评价等,包括自监督学习、无监督学 文本处理、语义处理等方面的技术要求和评测方法,包括语法分 析、语义理解、语义表达、机器翻译、自动摘要、自动问答、语 言大模型等标准。 5. 智能语音标准。规范前端处理、语音处理、语音接口、 数据资源等技术要求和评测方法,包括深度合成的鉴伪方法、全 双工交互、语音大模型等标准。 6. 计算机视觉标准。规范图像获取、图像/视频处理、图像 内容分析、三维计算机视觉、计算摄影学、跨媒体融合等技术要 求0 码力 | 13 页 | 701.84 KB | 1 年前3
普通人学AI指南能系统。 1.3 大模型 大模型通常指的是大规模的人工智能模型,这类模型通过训练大量的数据来获 得广泛的知识和能力。这些模型通常具有庞大的参数数量,能够处理复杂的任 务,如自然语言理解、图像识别、语音识别等。 闭源大模型包括 OpenAI 的 GPT 系列和 Google 的 BERT。这些模型因其 高效的学习能力和强大的通用性而受到关注。 开源大模型以 Meta 的 Llama 系列,2024 使用开源 LobeChat 搭建美观的大模型前端界面 19 4.1 LobeChat 开源框架,经过我的调研,发现 LobeChat 是目前最优化、最美观和炫酷的前 端界面,适配各个大模型,支持文字、语音、图片的多模态交互。 4.2 步骤一安装 docker 4.2.1 了解 docker 基本用法 Docker 是一个开源的容器化平台,旨在开发、部署和运行应用。它利用容器来 隔离软件,使其在不同环境中都能一致运行。Docker0 码力 | 42 页 | 8.39 MB | 8 月前3
2023 中国开源开发者报告彻底改变 了数字艺术内容的创作方式。同时,它们也引发了人工智能 在创作领域的伦理和法律讨论。LLM 杀进多媒体领域。往 后 DALL-E 3 模型升级、Adobe 产品整合 LLM 能力、 语音模型 whisper-3 更新、AI 虚拟主播创造等,都是在 这条路上的进一步发展。 五、 AI 编程方面,Copilot 可以根据开发者的代码提示自动补 全代码,大大提高了开发效率。这也引发了代码原创性的讨 究人员 对其 GPU 的巨大需求,跻身市值万亿美元俱乐部; 主要芯片供应商开发了不受出口管制影响的替代产品; 在 ChatGPT 的带领下,生成式 AI 的应用在图像、 视频、编码、语音等领域取得了突破性的进展,带动了 180 亿美元的风险投资和企业投资。 O'Reilly 发 布 的 “ 2023 Generative AI in the Enterprise”报告显示: 歉,并透露了导致中断的原因: 即,一个简单的拼写错误致使 17 个 生产级数据库被删除。 唯品会崩了 登上热搜 2023 年 3 月 29 日凌晨,腾讯旗下的微信和 QQ 等业务曾出现崩溃状况,包 括微信语音对话、朋友圈、微信支付,以及 QQ 文件传输、QQ 空间和 QQ 邮 箱在内的多个功能无法使用。 直到 29 日早间,腾讯微信团队才回应表示,经工程师抢修,系统正在逐步 恢复。 本次事故由广州电0 码力 | 87 页 | 31.99 MB | 1 年前3
人工智能安全治理框架 1.0等未经标识,导致用户难以识别交互对象及生成内容来源是否为人工智能系统, 难以鉴别生成内容的真实性,影响用户判断,导致误解。同时,人工智能生成 图片、音频、视频等高仿真内容,可能绕过现有人脸识别、语音识别等身份认 证机制,导致认证鉴权失效。 (c)不当使用引发信息泄露风险。政府、企业等机构工作人员在业务工 作中不规范、不当使用人工智能服务,向大模型输入内部业务数据、工业信息, 导致工作秘密、商业秘密、敏感业务数据泄露。0 码力 | 20 页 | 3.79 MB | 1 月前3
【周鸿祎清华演讲】DeepSeek给我们带来的创业机会-360周鸿祎-202502会写提示词与大模型进行对话,掌握一定的提示词能力(纳米AI) 基础级 69政企、创业者必读 拥抱DeepSeek 直接使用“纳米AI”个人版 搭载DeepSeek-R1联网满血版模型,且服务非常稳定 支持语音搜、拍照问,直接生成答案,支持文生图、图 生视频,用户体验超过官方版DeepSeek 实现“实时搜索+复杂推理”的完全融合 集成国内16家大模型厂商50多款模型,用户可自由选 择模型,并可多模型协作0 码力 | 76 页 | 5.02 MB | 6 月前3
清华大学 普通人如何抓住DeepSeek红利知识整合 交互能力 情感分析 文本分类 图像理解 跨模态转换 专业建议 任务分解 情感回应 上下文理解 对话能力 多轮对话 数学运算 逻辑分析 能力图谱 诗歌创作 语音识别 指令理解 方案规划 实体识别 l 文本创作 文章/故事/诗歌写作 营销文案 、广告语生成 社交媒体内容(如推文 、帖子) 剧本或对话设计 l 摘要与改写 长文本摘要(论文0 码力 | 65 页 | 4.47 MB | 8 月前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单A1:自动读取合同,分析潜在法律风险,生成修改建议,并与企业法务系统对接完 成合规审查。 企业 AI CEO:结合市场数据、财务数据,自动生成年度战略规划,并动态调整业务目标。 智能招聘 A1:筛选简历、面试候选人(语音/视频 AI 面试)、自动发送 offer,并完成 HR 系统录入。 增强知识图谱:多维解释,溯源路径 金融风险评估与决策支持: 通过结合金融知识图谱和AIGK技术,AI能够提供透明的决策过0 码力 | 85 页 | 8.31 MB | 8 月前3
2021 中国开源年度报告的核心项目向量相似度搜索引擎 Milvus 是全球首款 GPU 加速海量特征向量匹配和检索引擎。 Milvus 依托 GPU 加速,提供极速特征向量匹配以及多维度数据联合查询(特征、标签、图片、视 频、文本和语音等联合查询)功能,并且支持自动分库分表和多副本,能对接 TensorFlow、PyTorch 和 MxNet 等 AI 模型,可实现百亿特征向量的秒级查询。Milvus 于 2019 年 10 月在0 码力 | 132 页 | 14.24 MB | 1 年前3
共 59 条
- 1
- 2
- 3
- 4
- 5
- 6













