9 盛泳潘 When Knowledge Graph meet Python knowledge graph (机器的潜台词:“我”会推理,so easy!)。 所以,通俗的来说,在AI system中:要么从原有的知识体系中直接提取信息来使用,要么进行推理。 将知识融合在机器中,使机器能够利用我们人类知识、专家知识解决问题,这就是知识工程(Knowledge Engineering)的核心内涵。 ## Preliminaries ## Explaining AI system system from the perspective of KE – Symbolism ## ● 符号主义的主要观点 认知即计算 • 知识是信息的一种形式,是构成智能的基础 • 知识表示、知识推理、知识运用是人工智能的核心 ● Physical Symbol System - A physical symbol system has the necessary and sufficient MYCIN专家系统中的人工参与部分 ## Major difficulties: ## 1、 知识获取困难 e.g.,领域知识难以表达(形式化),因为它往往是一种隐性知识、过程知识。 ## 2、 知识应用困难 (1)开放性应用易于超出预先设定的知识边界;(2)有的应用需要尝试知识的支撑,而常识知识往往难以定义、表达、表征。 3、很难处理异常情况 e.g., 鸵鸟不会飞  ## model inference optimize · 终于到了我们直觉的优化部分 - 先补了补GPU和Cuda的知识 · 几个可以选择的方案: 1. 买更多更贵的机器——fp16、v100、cpu化 2. 优化算法——知识蒸馏 3. 优化实现——jit/TensorRT ## PyTorch jit ## · 原理介绍 • 转化为graph截图  ## 知识蒸馏 • Teacher Student 学的更快 • Huggingface Distill BERT · 12层 蒸出 6层  ## Lu Cheng GPT-5 难产的隐忧,直言有限的算力约束让 OpenAI 面临迭代优先级的艰难抉择,在通往 AGI 的道路上一路高歌猛进的领头羊似乎撞上了“算力墙”。 除此之外,能耗、资金,难以根除的幻觉,有限的知识更新速率、有限的上下文宽度、高昂的运营成本等等,都让外界对大模型的发展忧心忡忡。面对棘手的困境与难题,大模型的未来,又该何去何从呢? ## 下一代“明星产品” “算力墙”下,模型效果边际收益递减0 码力 | 111 页 | 11.44 MB | 1 年前3
2020美团技术年货 算法篇估文档数和特征数量不大的时候可以提供较好的支持。但是,从2018年开始,搜索业务瓶颈开始到来,点评事业部开始对整个搜索系统进行升级改造,并打造基于知识图谱的分层排序架构(详情可以参见点评搜索智能中心在2019年初推出的实践文章《大众点评搜索基于知识图谱的深度学习排序实践》)。这意味着:更多需要模型预估的文档,更多的特征,更深层次的模型,更多的模型处理层级,以及更多的业务。在这样的需求背景下,老框架 Sentence Prediction,NSP)两个预训练任务,并在更大规模语料上进行预训练,在 11 项自然语言理解任务上刷新了最好指标。BERT 的成功启发了大量后续工作,总结如下: • 融合更多外部知识的百度 ERNIE $ ^{[8]} $ ,清华 ERNIE $ ^{[9]} $ 和 K-BERT $ ^{[10]} $ 等; • 优化预训练目标的 ERNIE 2.0 $ ^{[11]} / 商品描述、品类、地址、图谱标签等结构化信息。我们首先改进了 MT-BERT 预训练方法,将品类、标签等文 本信息也加入 MT-BERT 预训练过程中。在相关性 Fine-tuning 阶段,我们对训练目标进行了优化,使得相关性任务和排序任务目标更加匹配,并进一步将两个任务结合进行联合训练。此外,由于 BERT 模型前向推理比较耗时,难以满足上线要求,我们通过知识蒸馏将 12 层 BERT 模型压缩为符合上线要求的0 码力 | 317 页 | 16.57 MB | 2 年前3
清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单2d1a0d1d8addd115233c124fe2a5/p20_5.jpg) • 故事化数据呈现:借助o3mini将数据以故事的形式呈现,增强数据的可读性和吸引力,帮助公众理解复杂的科学和技术知识。 ## 二 要怎么做? ## 撰写文章标题指令 指令:我想让您担任学术期刊编辑,我将向您提供一份手稿摘要,您将向我提供5个好的研究论文英文标题,并解释为什么这个标题是好的。请将输出结果以Mark 指令:我想让你充当一名科研类的英汉翻译,我会向你提供一种语言的一些段落,你的任务是将这些段落准确地、学术性地翻译成另一种语言。翻译后不要重复原文提供的段落。您应使用人工智能工具(如自然语言处理)以及有关有效写作技巧的修辞知识和经验进行回复。我会给你如下段落,请告诉我是用什么语言写的,然后翻译。我希望你能以标记表的形式给出输出结果,其中第一列是原文,第二列是翻译后的句子,每行只给出一个句子 所提供段落的语言是中文,以下是按要求的标记表格式翻译成英文的译文: failure occurred.| ## 改写降重指令 指令:我想让你充当科研写作专家,并提供一些英文或中文段落,你的任务是用原文改写段落。你应该使用人工智能工具(如自然语言处理)、修辞知识和你在有效科学写作技巧方面的专业知识来回答。请只提供改写后的文本,不作任何解释,请用科研语气风格重写下面的文字: I want you to act as an expert in scientific writing0 码力 | 85 页 | 8.31 MB | 1 年前3
国家人工智能产业综合标准化体系建设指南(2024版)关键技术标准主要包括机器学习、知识图谱、大模型、自然语言处理、智能语音、计算机视觉、生物特征识别、人机混合增强智能、智能体、群体智能、跨媒体智能、具身智能等标准。 1. 机器学习标准。规范机器学习的训练数据、数据预处理、模型表达和格式、模型效果评价等,包括自监督学习、无监督学习、半监督学习、深度学习、强化学习等标准。 2. 知识图谱标准。规范知识图谱的描述、构建、运维、共享、管理和应用,包括知识表示与建模、知识获取与 存储、知识融合与可视化、知识计算与管理、知识图谱质量评价与互联互通、 知识图谱交付与应用、知识图谱系统架构与性能要求等标准。 3. 大模型标准。规范大模型训练、推理、部署等环节的技术要求,包括大模型通用技术要求、评测指标与方法、服务能力成熟度评估、生成内容评价等标准。 4. 自然语言处理标准。规范自然语言处理中语言信息提取、文本处理、语义处理等方面的技术要求和评测方法,包括语法分析、语义理解、 生物特征识别标准。规范生物特征样本处理、生物特征数据协议、设备或系统等技术要求,包括生物特征数据交换格式、接口协议等标准。 8. 人机混合增强智能标准。规范多通道、多模式和多维度的交互途径、模式、方法和技术要求,包括脑机接口、在线知识演化、动态自适应、动态识别、人机协同感知、人机协同决策与控制等标准。 9. 智能体标准。规范以通用大模型为核心的智能体实例和 智能体基本功能、应用架构等技术要求,包括智能体强化学习、多任务分解、推0 码力 | 13 页 | 701.84 KB | 1 年前3
2022年美团技术年货 合辑美团技术团队精选论文解读 391 CVPR 2022 | 美团技术团队精选论文解读 404 ACM MM & ECCV 2022 | 美团视觉 8 篇论文揭秘内容领域的智能科技 413 前端 知识图谱可视化技术在美团的实践与探索 427 终端新玩法:技术栈无关的剧本式引导 459 自动化测试在美团外卖的实践与落地 483 深入理解函数式编程(上) 512 深入理解函数式编程(下) 奖金高达三百万美元。目前,Kaggle 比赛在艾滋病研究、棋牌评级和交通预测等方面均取得了突出成果,得益于此,Kaggle 平台后来被 Google 公司收购。 ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)是数据挖掘领域的国际顶级会议。KDD Cup 比赛是由 SIGKDD 主办的数据挖掘研究领域的国际顶级赛事。从 1997 年开始,每年举办一次,是目前数据挖掘领域最具影响力的 。竞赛选择图结点多分类任务来评估表示学习的质量,参与者需设计自动化图表示学习 [11-13] 解决方案。该方案需要基于图的给定特征、邻域和结构信息,高效地学习每个结点的高质量表示。比赛数据从真实业务中收集,包含社交网络、论文网络、知识图谱等多种领域共 15 个,其中 5 个数据集可供下载,5 个反馈数据集评估方案在公共排行榜的得分,剩余 5 个数据集在最后一次提交中评估最终排名。 |图数据集|1|2|3|4|5| |---|---|---|---|---|---|0 码力 | 1356 页 | 45.90 MB | 2 年前3
新一代分布式高性能图数据库的构建 - 沈游人数据库与大数据专场 ## 新一代分布式高性能图数据库的构建 北京海致星图科技有限公司 2023-06-18 沈游人 ## 海致简介—企业级知识图谱开创者  ## 专注于数据智能技术赋能中国数字经济发展 海致专注为政府、金融、能源 8d1f37eb6d72977af9d443434d4/p2_3.jpg) ## 专业顶尖技术团队支撑 超 700 人团队,其中 80% 为技术人员,创始团队在完成全球第一个中文知识图谱网站研发后,探索知识图谱技术在企业领域的应用。2021 年,海致院士专家工作站成立,站内清华大学计算机博士生占比达 90% 以上。 “2021年CCF科学技术奖科技进步卓越奖”。 伴随市场对于知识图谱应用的不断深入,图数据规模和应用性能之间的矛盾愈加凸显,海致针对以上背景展开了系统性的技术攻关,解决了图数据的高效存储、索引及复制难题,提出了基于图缩减的高效分析方法,并孵化出了一个大规模图数据分析平台0 码力 | 38 页 | 24.68 MB | 2 年前3
QCon2018北京-基于深度学习的视频结构化实践-姚唐仁ial\mathbf{W}} $$ ## 人物信息结构化 模型 ✓ 人脸评价 √ 人脸外饰 ## ↓ ✓ 多角度特征 √ 人脸跟踪 ## 人 √ 上下文 √ 关系图谱 ## 上下文&知识图谱  人脸识别 球衣识别 3/5/2/3/352350b1858524522924ec7d6915a0d1/p24_1.jpg) ## 物体识别 模型 √ 检测 ✓ 区间合并 ## 物体 ✓ 场景上下文 ✓ 知识图谱 ## 物体结构化 视频列表 / 读懂视频   ## 知识图谱 做菜 or 行凶 ## 场景结构化 视频列表 / 读懂视频  ## 达观数据:全球领先的文本智能处理专家 专注于文本挖掘的国际领军人工智能企业 ● 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 权威认证的人工智能服务,可充分保障客户业务实践与业务安全 获得全球三十大最佳AI企 Reward ## 增强学习优化模块 评分 返回 Rouge指标优化 ## 知识图谱关系抽取:联合学习方法 ## 输入句子 命名实体识别和关系分类 美国总统特朗普将访问中国。 地名 人名 地名 美国 总统 特朗普 将 访问 中国。 国家-总统 输出 (美国,国家-总统,特朗普) 难点:结构复杂 ## 知识图谱关系抽取:基于深度学习 基于参数共享的方法 对于输入句子通过共用的 word 把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体三元组。 ## 知识图谱关系抽取:基于联合标注 将抽取问题转换成标注任务 训练一个端到端标注模型来抽取关系 输入句子 标注框架 端到端标注模型 抽取结果 ## 知识图谱关系抽取:基于联合标注 三类标签 • 单词在实体中的位置{B(begin),I(inside),E(end),S(single)}0 码力 | 46 页 | 25.61 MB | 2 年前3
共 715 条
- 1
- 2
- 3
- 4
- 5
- 6
- 72













