华为云深度学习在文本分类中的实践-李明磊
华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3清华大学 DeepSeek+DeepResearch 让科研像聊天一样简单
数据处理 数据可视化 AIGC 数据应用 通过编写爬虫代码、访问数据库、读取文件、调用API等方式,采 集社交媒体数据、数据库内容、文本数据、接口数据等。 通过数据清洗、数据集成、数据变换、特征工程等方式,实 现数据纠错、数据整合、格式转换、特征提取等。 对数据进行诊断、预测、关联、聚类分析,常用于问题 定位、需求预测、推荐系统、异常检测等。 对数据进行分类、社交网络分析或时序模式挖掘,常用 性能之间取得平衡,适合 中等规模任务。 多模态支持:支持文本和 图像处理,扩展应用场景。 可解释性:注重模型输出 的可解释性和透明性。 DeepSeek R1 高效推理:专注于低延迟和 高吞吐量,适合实时应用。 轻量化设计:模型结构优化, 资源占用少,适合边缘设备 和移动端。 多任务支持:支持多种任务, 如文本生成、分类和问答。 Kimi k1.5 垂直领域优化:针对特定领域 长文本处理:擅长处理长文本 和复杂文档,适合专业场景。 定制化能力:支持用户自定义 训练和微调,适应特定需求。 Open AI o3 mini 小型化设计:轻量级模型, 适合资源有限的环境。 快速响应:优化推理速度, 适合实时交互场景。 通用性强:适用于多种自 然语言处理任务,如对话 生成和文本理解。 爬虫数据采集 1、阅读网页源代码,提取特定网页内容;0 码力 | 85 页 | 8.31 MB | 7 月前3Ubuntu 桌面培训 2010
. . . . 333 8.2.1 使用 Rhythmbox 播放音乐 . . . . . . . . . . . . . . . . . . . . . . . . . . . 334 8.3 提取和播放 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 349 播放音频 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 350 8.3.2 提取音频 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354 8.4 刻录音频 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 175 4.60 三维文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 524 页 | 57.54 MB | 1 年前3Ubuntu 桌面培训 2010
. . . . 341 VIII.III.I使用 Rhythmbox 播放和管理音乐 . . . . . . . . . . . . . . . . . . . . . 341 VIII.IV提取和播放 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 358 I播放音频 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 359 VIII.IV.II提取音频 CD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 363 VIII.V刻录音频 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.III.VIIGedit 打开一些文本文件时会乱码,其他文本编辑器 却正常,这是怎么回事? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 491 XI.IV 常用工具软件0 码力 | 540 页 | 26.26 MB | 1 年前3JavaScript 正则表达式迷你书 老姚 - v1.1
3.2. 分组引用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.1. 提取数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.2. 替换 . . . . . 61 6.4.3. 独立出确定字符 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.4.4. 提取分支公共部分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.4.5. 减少分支的数量,缩小它们的范围 7.1.2. 切分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 7.1.3. 提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 7.1.4. 替换 . . . .0 码力 | 89 页 | 3.42 MB | 10 月前3JavaScript 正则表达式迷你书 老姚 - v1.0
3.2. 分组引用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.2.1. 提取数据 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28 3.2.2. 替换 . . . . . 61 6.4.3. 独立出确定字符 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.4.4. 提取分支公共部分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61 6.4.5. 减少分支的数量,缩小它们的范围 7.1.2. 切分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 7.1.3. 提取 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 7.1.4. 替换 . . . .0 码力 | 89 页 | 3.42 MB | 10 月前32020美团技术年货 算法篇
比赛冠军技术方案及在美团的实践 141 KDD Cup 2020 多模态召回比赛亚军方案与搜索业务应用 161 CIKM 2020 | 一文详解美团 6 篇精选论文 179 MT-BERT 在文本检索任务中的实践 192 美团无人车引擎在仿真中的实践 204 美团无人配送 CVPR2020 论文 CenterMask 解读 215 WSDM Cup 2020 检索排序评测任务第一名经验总结 } ], "default_value": -1 } 通过以上配置,一个模型可以通过特征名和 Transformer 的组合清晰地表达。因此, 模型与特征都只是一段纯文本配置,可以保存在外部,Augur 在需要的时候可以动态 的加载,进而实现模型和特征的上线配置化,无需编写代码进行上线,安全且高效。 其中,我们将输入模型的特征名(tf_input_name)和原始特征名(name)做了区分。 第二部分是行为序列建模,第三部分是重排序。下面会逐一进行详细介绍。 特征工程 在搜索排序系统中,特征工程的输入特征维度高但稀疏性很强,而准确的交叉特征对 模型的效果又至关重要。所以寻找一种高效的特征提取方式就变得十分重要,我们借 鉴 AutoInt[3] 的方法,采用 Transformer Layer 进行特征的高阶组合。 模型结构 我们的模型结构参考 AutoInt[3] 结构,但在实践中,根据美团搜索的数据特点,我们0 码力 | 317 页 | 16.57 MB | 1 年前32022年美团技术年货 合辑
中,用图表示用户与商品之间的点击购买行为;在知识图谱构建中,还可以用图表示 实体与实体间多样的关系。另一方面,深度学习技术在计算机视觉、自然语言处理、 语音处理等领域均已取得了巨大的成功。深度学习技术将图像、文本、语音等多种多 样的数据转化为稠密的向量表示,提供了表示数据的另一种方式。借助于硬件日益强 大的计算能力,深度学习可以从海量数据中学习到数据之间复杂多样的相关性。 这会让人不禁思考,深度学习能 一 流的自然语言处理核心技术和服务能力,依托 NLP(自然语言处理)、Deep Learning(深度学 习)、Knowledge Graph(知识图谱)等技术,处理美团海量文本数据,为美团各项业务提供智 能的文本语义理解服务。NLP 中心长期招聘自然语言处理算法专家 / 机器学习算法专家,感兴 趣的同学可以将简历发送至:tech@meituan.com(邮件主题:美团搜索与 NLP 部)。 - 商家 / 商品完整交互信息(< User、POI、Time、Loca- 算法 < 87 tion >)中挖掘到的共性 Pattern。我们通过构建用户 - 商家 / 商品交互场景图来刻画 和提取这个 Pattern,并将场景先验知识引入到预估模型当中辅助决策。业界已经有 前沿探索将 GNN 应用于 LBS 场景建模,如美团平台的 STGCN[2] 从时空结合的角 度描述了 LBS 场景下0 码力 | 1356 页 | 45.90 MB | 1 年前3DeepSeek从入门到精通(20250204)
直接面向用户或者支持开发者,提供智能对话、文本生成、语义理解、计算推理、代码生成补全等应用场景, 支持联网搜索与深度思考模式,同时支持文件上传,能够扫描读取各类文件及图片中的文字内容。 文本生成 表格、列表生成(如日程安排、菜谱) 代码注释、文档撰写 结构化生成 文章/故事/诗歌写作 营销文案、广告语生成 社交媒体内容(如推文、帖子) 剧本或对话设计 文本创作 长文本摘要(论文、报告) 文本简化(降低复杂度) 文本简化(降低复杂度) 多语言翻译与本地化 摘要与改写 02 01 03 文本生成 自然语言理解与分析 知识推理 知识推理 逻辑问题解答(数学、常识推 理) 因果分析(事件关联性) 语义分析 语义解析 情感分析(评论、反馈) 意图识别(客服对话、用户查询) 实体提取(人名、地点、事件) 文本分类 文本分类 主题标签生成(如新闻分类) 垃圾内容检测 编程与代码相关 代码调试 适用于大多数任务,非推理大模型一般侧重于语言生成、上下文理解和自然语言处理,而不强 调深度推理能力。此类模型通常通过对大量文本数据的训练,掌握语言规律并能够生成合适的内容,但缺乏像 推理模型那样复杂的推理和决策能力。 维度 推理模型 通用模型 优势领域 数学推导、逻辑分析、代码生成、复杂问题拆解 文本生成、创意写作、多轮对话、开放性问答 劣势领域 发散性任务(如诗歌创作) 需要严格逻辑链的任务(如数学证明)0 码力 | 104 页 | 5.37 MB | 7 月前3
共 800 条
- 1
- 2
- 3
- 4
- 5
- 6
- 80