机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
务中,比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你 可以用更低维度的特征向量代替原来的10000维的one-hot向量,现在你可以用 一个300维更加紧凑的向量。 第三步,当你在你新的任务上训练模型时,在你的命名实体识别任务上,只有少 量的标记数据集上,你可以自己选择要不要继续微调,用新的数据调整词嵌入。 11 2.词嵌入 ?king − ?queen = −0.95 0.93 0.70 0 及 其相关的负样本),并再次执行相同的过程。 当我们循环遍历整个数据集多次时,嵌入继续得到改进。然后我们可以停 止训练过程,丢弃`Context`矩阵,并使用`Embeddings`矩阵作为下一个任务 的预训练嵌入。 27 4.GloVe 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 28 Transformer摆脱了人工标注数据集的缺陷,模型在质量上更优、 更易于并行化,所需训练时间明显更少 ◼ Transformer通过成功地将其应用于具有大量和有限训练数据的分 析,可以很好地推广到其他任务 ✓ 2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积0 码力 | 44 页 | 2.36 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
机器重复且快速地执行,从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需 要较高智能水平的任务,如人脸识别、聊天机器人、自动驾驶等任务,很难设计明确的逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial Intelligence,简称 AI)是有 望解决此问题的关键技术。 随着深度学习算法的崛起,人工智能在部分任务上取得了类人甚至超人的智力水平, 如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁,在 以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出 现在 1956 年召开的达特茅斯会议上。这是一项极具挑战性的任务,人类目前尚无法对人脑 的工作机制有全面、科学的认知,希望能制造达到人脑水平的智能机器无疑是难于上青 天。即使如此,在某个方面呈现出类似、接近甚至超越人类智能水平的机器被证明是可行 的。 怎么实 杂、抽象逻辑的研究方向,称为神经网 络。神经网络方向的研究经历了两起两落。从 2012 年开始,由于算法效果极为显著,深层 神经网络技术在计算机视觉、自然语言处理、机器人等领域取得了重大突破,部分任务上 甚至超越了人类智能水平,开启了以深层神经网络为代表的人工智能的第三次复兴。深层 神经网络也有了一个新名字,叫作深度学习。一般来讲,神经网络和深度学习的区别并不 大,深度学习特指基于深层神经网络实0 码力 | 439 页 | 29.91 MB | 1 年前3动手学深度学习 v2.0
2 字节对编码(Byte Pair Encoding) . . . . . . . . . . . . . . . . . . . . . . . . . . . 675 14.7 词的相似性和类比任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 678 14.7.1 加载预训练词向量 . 14.8.1 从上下文无关到上下文敏感 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 683 14.8.2 从特定于任务到不可知任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 684 14.8.3 BERT:把两个最好的结合起来 . . . 输入表示 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 685 14.8.5 预训练任务 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 688 14.8.6 整合代码 .0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-13深度学习-Transformer
使得它不能够并行计算,模型效率十分低。 在没有transformer的时候,我们 都是用什么来完成这系列的任务 的呢? 5 1.Transformer介绍 Seq2Seq任务 Seq2Seq 任务指的是输入和输出都是 序列的任务,输出的长度不确定时采 用的模型,这种情况一般是在机器翻 译的任务中出现,将一句中文翻译成 英文,那么这句英文的长度有可能会 比中文短,也有可能会比中文长,所 以输出的长度就不确定了。 以输出的长度就不确定了。 上图,输入的中文长度为4,输出的英文长度为2 6 1.Transformer介绍 Encoder-Decoder模型 通常来说,Seq2Seq任务最常见的是使用Encoder+Decoder的模式,先将一个序 列编码成一个上下文矩阵,在使用Decoder来解码。当然,我们仅仅把context vector作为编码器到解码器的输入。 7 1.Transformer介绍 all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention Add & Norm Input Embedding Output Embedding Feed0 码力 | 60 页 | 3.51 MB | 1 年前3谭国富:深度学习在图像审核的应用
Era https://arxiv.org/abs/1707.02968 数据除了人工以外的获取方法 • 扩增数据 – 各种图像增强,加噪声 • 非监督学习 - 聚类 • 迁移学习 – 利用相似任务训练好的网络 • 生成样本数据 – 深度生成对抗网络 SACC2017 深度学习 训练框架 和 硬件选择 不同场景,不同框架 特性 GTX - 1080TI G7-P40 PCIe-V100 监控/启停 任务调度/资源管理 监控上报 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器 • 灵活的资源分配 • 支持以 GPU 或节点为粒度进行资源分配 • 用户配置任务所需最小资源 • 自动扩缩容,最大化资源使用率 • 支持不同计算框架 • 调度与任务松耦合,用户可以灵活定义任务 • 支持配置 docker 镜像,完全自定义运行环 境 •0 码力 | 32 页 | 5.17 MB | 1 年前3机器学习课程-温州大学-09深度学习-目标检测
分类(Classification) 即是将图像结构化为某一 类别的信息,用事先确定 好的类别(string)或实例ID 来描述图片。这一任务是 最简单、最基础的图像理 解任务,也是深度学习模 型最先取得突破和实现大 规模应用的任务。 检测(Detection) 分类任务关心整体,给出的 是整张图片的内容描述,而 检测则关注特定的物体目标 ,要求同时获得这一目标的 类别信息和位置信息。 分割(Segmentation) 分割包括语义分割(semantic segmentation)和实例分割( instance segmentation),前者 是对前背景分离的拓展,要求 分离开具有不同语义的图像部 分,而后者是检测任务的拓展 ,要求描述出目标的轮廓(相 比检测框更为精细)。 5 目标检测和识别 • 怎样检测和识别图 像中物体,如汽车、 牛等? 1.目标检测概述 6 目标识别的应用 1.目标检测概述0 码力 | 43 页 | 4.12 MB | 1 年前3机器学习课程-温州大学-14深度学习-Vision Transformer (ViT)
all you need的文章,开创性地提出了 在序列转录领域,完全抛弃 CNN和RNN,只依赖Attention-注 意力结构的简单的网络架构, 名为Transformer;论文实现的 任务是机器翻译。 Transformer结构 Multi-Head Attention Add & Norm Input Embedding Output Embedding Feed Positional Encoding Positional Encoding 1.背景知识 6 为什么需要用transformer Transformer原本是用来做 NLP的工作的,所以ViT的 首要任务是将图转换成词 的结构,这里采取的方法 是如上图左下角所示,将 图片分割成小块,每个小 块就相当于句子里的一个 词。这里把每个小块称作 Patch,而Patch Embedding 就是把每个Patch再经过一 1.图片切分为patch 2.patch转化为embedding 3.位置embedding和tokensembedding相加 4.输入到Transformer模型 5.CLS输出做多分类任务 10 先将图片分成NxN的patch块(原始论文是16x16) patch块可以重叠(上图没有重叠,是9x9的patch块) 2.模型介绍 11 将patch打平, 对每个 patch 进行线性映射,提取特征0 码力 | 34 页 | 2.78 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本 语音 图像 人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的:让机器理解人类的语言,是人工智能领域的重要 分支,用于分析、理解和生成自然语言,方便人机交流 来进行命名实体识别 (NER)和一个 CNN 来进行关系分类(RC)。 基于联合标注的方法 把原来涉及到序列标注任务和分类任务的关系抽取完全变成了一个序 列标注问题。然后通过一个端对端的神经网络模型直接得到关系实体 三元组。 知识图谱关系抽取:基于联合标注 将抽取问题转换成标注任务 训练一个端到端标注模型来抽取关系 输入句子 标注框架 抽取结果 端到端标注模型 知识图谱关系抽取:基于联合标注0 码力 | 46 页 | 25.61 MB | 1 年前3机器学习课程-温州大学-05机器学习-机器学习实践
?个少类样本 (d)增加样本 8 代价敏感学习 不平衡数据的处理 代价敏感学习是指为不同类别的样本提供不同的权重,从而让机器学习模 型进行学习的一种方法 比如风控或者入侵检测,这两类任务都具有严重的数据不平衡问题,可以 在算法学习的时候,为少类样本设置更高的学习权重,从而让算法更加专 注于少类样本的分类情况,提高对少类样本分类的查全率,但是也会将很 多多类样本分类为少类样本,降低少类样本分类的查准率。 stopping的优点是,只运行 一次梯度下降,你可以找出?的较小 值,中间值和较大值,而无需尝试?2 正则化超级参数?的很多值。 27 正则化 大部分的计算机视觉任务使用很多的数据 ,所以数据增强是经常使用的一种技巧来 提高计算机视觉系统的表现。计算机视觉 任务的数据增强通常以下方法实现: (1) 随意翻转、镜像。 (2) 随意裁剪。 (3) 扭曲变形图片。 (4) 颜色转换,然后给R、G和B三个通道上0 码力 | 33 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-特征工程
特征选择(feature selection):从给 定的特征集合中选出相关特征子集的 过程。 相关特征 • 对当前学习任务有用 的属性或者特征 无关特征 • 对当前学习任务没用 的属性或者特征 原因:维数灾难问题;去除无关特征可 以降低学习任务的难度,简化模型,降 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J]0 码力 | 38 页 | 1.28 MB | 1 年前3
共 24 条
- 1
- 2
- 3