华为云深度学习在文本分类中的实践-李明磊华为云深度学习在文本分类中的实践 华为 Cloud&AI 李明磊 3 2 3 1 4 分类 算法 简史 深度 学习 架构 难点 应用 案例 目录 4 文本分类介绍 内容: 买没几天就降价一点都不开心,闪存跑分就五百多点点 --- 外观漂亮音质不错,现在电子产品基本上都是华为的了 --- 汽车不错,省油,性价比高 --- 这个政策好啊,利国利民 --- f(text)=label 词 句子 篇章 对话 5 文本分类方法简史-机器学习 特征提取 特征选择 输入 文本 模型训练 模型部署 评测 label 预测标签 词袋 TFIDF Ngram 词典 … 卡方 PCA 互信息 RFE … 分类器 SVM LR XGBoost 随机森林 … 6 文本分类方法简史-深度学习 输入 文本 模型训练 模型部署 评测 label label 预测标签 RNN CNN LSTM DCNN Attention HAN Transformer Elmo BERT MT-DNN 7 文本分类方法简史-深度学习 神经网络 语言模型 2003 神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难0 码力 | 23 页 | 1.80 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观数据 陈运文 文本智能处理的深度学习技术 达观数据CEO 陈运文 博士 • 中 国 计 算 机 学 会 高 级 会 员 , A C M 和 I E E E 学 会 会 员 , 复 旦 大 学 计 算 机 博 士 和 杰 出 毕 业 生 • 原 腾 讯 文 学 高 级 总 监 、 盛 大 文 学 首 席 数 据 官 、 百 度 核 心 技 术 工 程 师 • 三 十 项 国 家 技 术 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 证 全 l 覆盖金融、制造、法律、电商、传媒等行业,提升企业文档自动化处理能力 为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的0 码力 | 46 页 | 25.61 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112数据集。 考虑到手写数字图片包含的信息比较简单,每张图片均被缩放到28 × 28的大小,同时 只保留了灰度信息,如图 3.2 所示。这些图片由多人书写,包含了如字体大小、书写风 格、粗细等丰富的样式,使得数据集的分布与真实的手写数字图片的分布尽可能地接近, 从而保证了模型的泛化能力。 图 3.2 MNIST 数据集样例图片 现在来讨论图片的表示方法。一张图片包含了ℎ行(Height/Row), 电影评价数据集 from torchtext import data, datasets # 需要先安装 torchtext 库 # 创建 2 个 Field 对象,即文本(设置最长 80 个单词)和文本的标签信息(正、负面评价) TEXT = data.Field(tokenize='spacy', fix_length=80) LABEL = data.LabelField(dtype=torch 全连接层前向计算流程相对简单,梯度求导也较简单,但是它有一个最大的缺陷,在处理 较大特征长度的数据时,全连接层的参数量往往较大,使得深层数的全连接网络参数量巨 大,训练起来比较困难。近年来,社交媒体的发达产生了海量的图片、视频、文本等数字 资源,极大地促进了神经网络在计算机视觉、自然语言处理等领域中的研究,相继提出了 一系列的神经网络变种类型。 6.7.1 卷积神经网络 如何识别、分析并理解图片、视频等数据是计算机视觉的一个核心问题,全连接层在0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.03 预测 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 295 8.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 298 8.2 692 14.9.1 为预训练任务定义辅助函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 693 14.9.2 将文本转换为预训练数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 695 14.10 预训练BERT . . . . 预训练BERT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 699 14.10.2 用BERT表示文本 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 701 15 自然语言处理:应用 703 150 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 4 1.词汇表征和文本数据处理 5 1.词汇表征和文本数据处理 6 1.词汇表征和文本数据处理 7 1.词汇表征和文本数据处理 8 2 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 9 2.词嵌入 “Sally Johnson is an orange farmer.” “Robert Lin is an apple farmer.” 10 2.词嵌入 如何用词嵌入做迁移学习的步骤。 第一步,先从大量的文本集中学习词嵌入。 第二步,你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 15 3.Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram)0 码力 | 44 页 | 2.36 MB | 1 年前3
Keras: 基于 Python 的深度学习库120 6.1.4 make_sampling_table . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 121 6.2 文本预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122 6.2.1 Tokenizer 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 • IMDB 电影评论情感分类:基于词序列的 LSTM • Reuters 新闻主题分类:多层感知器 (MLP) • MNIST 手写数字分类:MLP 和 CNN • 基于 LSTM 的字符级文本生成 … 等等。 3.1.5.1 基于多层感知器 (MLP) 的 softmax 多分类: import keras from keras.models import Sequential0 码力 | 257 页 | 1.19 MB | 1 年前3
亚马逊AWSAI Services Overview218/notebooks/money_predict.ipynb 将文本转化为 生活化语音 47 种语音 24 种语言 低延迟、实时 全托管 Polly: 生活化的语音服务 Voice Quality & Pronunciation 1. 自动化、精准的文本处理 2. 智能化的且易于理解 3. 将语义加入文本当中 4. 定制化的发音 文章、博客 训练材料 Chatbots (Lex) 意图导向 人-机交互会话的发展 语音 & 文本 “Chatbots” Alexa 应用 在手机、Web以及 设备上的语音交互 在Slack & Messenger 上的文本交互 企业应用 Salesforce Microsoft Dynamics Marketo Zendesk Quickbooks Hubspot Lex: 构建自然的通过语音和文本的会话交互 不断提升的 人性化交互… • • 联系、服务支持中心的接口 (文本 + 语音) • 员工工作效率和协同 (分钟级别到秒级) Origin Destination Departure Date Flight Booking “Book a flight to London” Automatic Speech Recognition Natural Language Understanding Book Flight0 码力 | 56 页 | 4.97 MB | 1 年前3
AI大模型千问 qwen 中文文档针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等; 想了解更多信息,欢迎访问: • 博客 • GitHub • Hugging Face • ModelScope • Qwen1.5 Collection max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外,我们还可以使用 TextIteratorStreamer ,它将可打印的文本存储在一 个队列中,以便下游应用程序作为迭代器来使用: # Repeat the code above before model.generate() # Starting here, we add ollama run qwen7b 1.6 Text Generation Web UI Text Generation Web UI(简称 TGW,通常被称为“oobabooga”)是一款流行的文本生成 Web 界面工具,类似 于 AUTOMATIC1111/stable-diffusion-webui 。它拥有多个交互界面,并支持多种模型后端,包括 Transformers 、 llama.cpp(通过0 码力 | 56 页 | 835.78 KB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯形式化表示为,(如果给定 ?的情况下,?和?条件独立): ?(?|?) = ?(?|?, ?) 也可以表示为: ?(?, ?|?) = ?(?|?)?(?|?) 12 2.朴素贝叶斯原理 用于文本分类的朴素贝叶斯模型,这个模型称作多值伯努利事件模型。 在这个模型中,我们首先随机选定了邮件的类型?(?),然后一个人翻阅词 典的所有词,随机决定一个词是否出现依照概率?(?(1)|?),出现标示为1, 02 朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 19 3.朴素贝叶斯案例 假设我们正在构建一个分类器,该分类器说明文本是否与运动(Sports)有 关。我们的训练数据有5句话: 文本 标签 A great game Sports The election was over Not Sports Very clean match Sports 样本, 然后除以sports为标签的文本的单词总数(3+3+5=11)。 因此,? ???? ?????? = 2 11。 “close”不会出现在任何sports样本中!那就是说? ????? ?????? = 0。 计算每个类别的先验概率: 对于训练集中的给定句子, ? Sports 的概率为⅗。 ?(Not Sports )是⅖。 文本 标签 A great game Sports0 码力 | 31 页 | 1.13 MB | 1 年前3
深度学习在电子商务中的应用Word2vec等工具可以有效地将词语转化为向量 • 将句子/段落/文章有效转化为向量则有很大的挑战。 简单平均/加权平均容易失去句子等的语义/结构信息 直接以句子为单位进行训练, 则训练文本严重不足 • 电商搜索中遇到的主要是句子/短文分析, 可以将短文中的词语聚类, 挑选具有代表 性的词语聚类结果, 来表示整个短文 • 传统聚类(如Kmeans)在几何距离的基础上进行聚类, 效果不好。 产品频率过滤 矢量转换回商 品 14 原型评测结果 矢量化搜索引擎与易购传统引擎搜索效果对比 (2016-07-25测试结果) 15 • 该技术不仅召回与搜索词完全匹配的结果,还可召回与搜索词文本不匹配、但含义近似的结果。 效果示例 如:经测评,当搜索词为“松下筒灯”, 易购网站返回6个相关结果, 美研方案返回64个相关结果 现有方案 原型系统 16 • 首先进行词语的矢量化 • 词语矢量作为各种深度学习模型的输入值 dual RNN ( dual LSTM) • 利用用户反馈数据来补充训练样本 正在进行的探索 17 聊天机器人(chatbot) • 聊天机器人是一种聊天代理,它通过电脑程序设计与人类通过音频或文本进行 智力对话。 --维基百科 • 未来,聊天应用将被看作是新的浏览器,而机器人程序将成为新的网站。这就 是互联网的新开始。--Ted Livingston, CEO of KiK • 聊天机器0 码力 | 27 页 | 1.98 MB | 1 年前3
共 20 条
- 1
- 2













