机器学习课程-温州大学-09机器学习-支持向量机2022年02月 机器学习-支持向量机 黄海广 副教授 2 本章目录 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 3 1.支持向量机概述 01 支持向量机概述 02 线性可分支持向量机 03 线性支持向量机 04 线性不可分支持向量机 4 1.支持向量机概述 支 持 向 量 机 ( classifier),其决 策边界是对学习样本求解的最大边距超平面( maximum-margin hyperplane) 。 与逻辑回归和神经网络相比,支持向量机,在学 习复杂的非线性方程时提供了一种更为清晰,更 加强大的方式。 支持向量 距离 5 1.支持向量机概述 硬间隔、软间隔和非线性 SVM 假如数据是完全的线性可分的,那么学习到的模型可以称为硬间隔支持向 量机。换个说法,硬间隔指的就是完全分类准确,不能存在分类错误的情 况。软间隔,就是允许一定量的样本分类错误。 软间隔 硬间隔 线性可分 线性不可分 6 支持向量 1.支持向量机概述 算法思想 找到集合边缘上的若干数据(称为 支持向量(Support Vector)) ,用这些点找出一个平面(称为决 策面),使得支持向量到该平面的 距离最大。 距离 7 1.支持向量机概述 背景知识 任意超平面可以用下面这个线性方程来描述: ?T? + ? = 00 码力 | 29 页 | 1.51 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文TF-IDF 互信息 信息增益 期望交叉熵 主成分分析 … 特征工程需要手工寻找特 征,花费大量人力,特征的 好坏往往决定最终结果 深度学习基础结构 基础神经元结构 多个神经元连接组成神经网络 字词表示 计算机 电脑 [ 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, … ] [ 0, 0, 0, 0, 0, 1, [ 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, … ] one-hot表示 高维,稀疏,正交,无法计算语义相关性 字词表示 威海市 [ -2.0795249939, 1.4055569172, 1.9540510178, … -0.651816964, -6.1333961487, -0.5107190013 ] 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) • 多领域通用 • 输入层采用词向量,提升泛化能力 • 循环神经网络(LSTM,GRU等)能学 到一些较远的的上下文特征以及一些 非线性特征 序列标注 字/词向量 Bi-LSTM0 码力 | 46 页 | 25.61 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 对称矩阵的特征值和特征向量 4.矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组: 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 和 的唯一解(除非方程以某 ,表示具有 个元素的向量。 通常,向量 将表示列向量: 即,具有 行和 列的矩阵。 如果 我们想要明确地表示行向量: 具有 行和 列的矩阵 - 我们通常写 (这里 的转置)。 表示向量 的第 个元素 我们使用符号 (或 , 等)来表示第 行和第 列中的 的元素: 我们用 或者 表示矩阵 的第 列: 我们用 或者 表示矩阵 的第 行: 在许多情况下,将矩阵视为列向量或行向量的集合非常重要且方便。0 码力 | 19 页 | 1.66 MB | 1 年前3
机器学习课程-温州大学-线性代数回顾机器学习-线性代数回顾 黄海广 副教授 2 目录 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?,则:??1??1 + 是?阶方阵,??(? = 1,2 ⋯ , ?)是?的?个特征值,则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?21 ?22 ⋯ ?2? ⋯ ⋯ ⋯ ⋯ ⋯ ??1 均为可逆方阵。 2.矩阵 14 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 15 3.向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关 ⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2, ⋯ , ??,0 码力 | 39 页 | 856.89 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版20211211.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第 12 章 自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12.5 ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本?的数据集,算法需 要自行发现数据的模态,这种方式叫作无监督学习。无监督学习中有一类算法将自身作为 监督信号,即模型需要学习的映射为 LSTM 被 Jürgen Schmidhuber 提出;同年双向循环 神经网络也被提出。 遗憾的是,神经网络的研究随着以支持向量机(Support Vector Machine,简称 SVM)为 代表的传统机器学习算法兴起而逐渐进入低谷,称为人工智能的第二次寒冬。支持向量机 拥有严格的理论基础,训练需要的样本数量较少,同时也具有良好的泛化能力,相比之 下,神经网络理论基础欠缺,可解释性差,很难训练深层网络,性能也相对一般。图0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的工作流程 各种向量或张量是怎样在模型的不同部分中,将输入转化为输出的。 像大部分NLP应用一样,我们首先将每个输入单词通过词嵌入算法转换为词向量。 每个单词都被嵌入为512维的向量,词嵌入过程只发生在最底层的编码器中。所 有的编码器都有一个相同的特点,即它们接收一个向量列表,列表中的每个向量 大小为512维。在底层(最开始)编码器中它就是词向量,但是在其他编码器中 ,它就 ,它就是下一层编码器的输出(也是一个向量列表)。 向量列表大小是我们可以设置的超参数:一般是我们训练集中最长句子的长度。 20 2.Transformer的工作流程 将输入序列进行词嵌入之后,每个单词都会流经编码器中的两个子层。 Transformer的一个核心特性,在这里 输入序列中每个位置的单词都有自己 独特的路径流入编码器。在自注意力 层中,这些路径之间存在依赖关系。 而前馈(feed-forward)层没有这些依赖 可以并行执行各种路径。 21 2.Transformer的工作流程 输入序列的每个单词都经过自编码过程。然后,它们各自通过前向传播 神经网络:完全相同的网络,而每个向量都分别通过它。 编码过程 一个编码器接收向量列表作为输 入,接着将向量列表中的向量传 递到自注意力层进行处理,然后 传递到前馈神经网络层中,将输 出结果传递到下一个编码器中。 22 2.Transformer的工作流程 从宏观视角看自注意力机制0 码力 | 60 页 | 3.51 MB | 1 年前3
机器学习课程-温州大学-11机器学习-降维降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述 维数灾难(Curse of Dimensionality):通常是指在涉及到向量的计算的问题 中,随着维数的增加,计算量呈指数倍增长的一种现象。 在很多机器学习问题中,训练集中的每条数据经常伴随着上千、甚至上万 个特征。要处理这所有的特征的话,不仅会让训练非常缓慢,还会极大增 ?T = ?1?1?1 T + ⋯ + ??????T 其中?是一个? × ?的矩阵,每个特征向量??叫做? 的左奇异向量。 ?是一个? × ?的矩阵,除了主对角线上的元素以外全为 0,主对角线上的每 个元素都称为奇异值 ?。 ?是一个? × ?的矩阵,每个特征向量??叫做 ? 的右奇异向量。 ?为矩阵?的秩(rank)。 ? 和 ?都是酉矩阵,即满足:?T? = ?, ?T? = 的一个方阵,那么我们就可以进行特征分解,得到的特 征值和特征向量满足下式: (??T)?? = ???? 可以得到矩阵??T的 ? 个特征值和对应的 ?个特征向量?了。 18 2.SVD(奇异值分解) SVD求解 ?矩阵求解 将??T的所有特征向量组成一个 ? × ?的矩阵?,就是我们 ??? 公式里面的 ? 矩阵了。 一般我们将?中的每个特征向量叫做? 的左奇异向量。 注意:??T = (???T)(0 码力 | 51 页 | 3.14 MB | 1 年前3
动手学深度学习 v2.0标量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50 2.3.2 向量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51 2.3.3 矩阵 点积(Dot Product) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58 i 2.3.8 矩阵‐向量积 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 59 2.3.9 矩阵‐矩阵乘法 . 小批量随机梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 11.5.1 向量化和缓存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 457 11.5.2 小批量 .0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)?−1 ?−1); (? ? ? ?) −1 = ( ? ?−1 ?−1 ? ) 这里?,?均为可逆方阵。 向量 1.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2,⋯ , ??,?线性相关⇔ ?可以由?1, ?2, ⋯ , ??唯一线性表 2, ⋯ , ??, ?) 。 2.有关向量组的线性相关性 (1)部分相关,整体相关;整体无关,部分无关. (2) ① ?个?维向量 ?1, ?2 ⋯ ??线性无关⇔ |[?1?2 ⋯ ??]| ≠ 0, ?个?维向量?1, ?2 ⋯ ??线 性相关 ⇔ |[?1, ?2, ⋯ , ??]| = 0 。 ② ? + 1个?维向量线性相关。 ③ 若?1, ?2 ⋯ ?? 线性无关,则添加分量后仍线性无关;或一组向量线性相关,去掉某些分 量后仍线性相关。 3.有关向量组的线性表示 (1) ?1, ?2, ⋯ , ??线性相关⇔至少有一个向量可以用其余向量线性表示。 (2) ?1, ?2, ⋯ , ??线性无关,?1, ?2,⋯ , ??,?线性相关⇔ ? 可以由?1, ?2, ⋯ , ??唯一线性表 示。 (3) ?可以由?1, ?2, ⋯ ,0 码力 | 31 页 | 1.18 MB | 1 年前3
Keras: 基于 Python 的深度学习库num_classes=10) model = Sequential() # Dense(64) 是一个具有 64 个隐藏神经元的全连接层。 # 在第一层必须指定所期望的输入数据尺寸: # 在这里,是一个 20 维的向量。 model.add(Dense(64, activation='relu', input_dim=20)) model.add(Dropout(0.5)) model.add(Dense(64 在这个模型中,我们将 3 个 LSTM 层叠在一起,使模型能够学习更高层次的时间表示。 前两个 LSTM 返回完整的输出序列,但最后一个只返回输出序列的最后一步,从而降低了 时间维度(即将输入序列转换成单个向量)。 from keras.models import Sequential from keras.layers import LSTM, Dense import numpy as np data_dim input_shape=(timesteps, data_dim))) # 返回维度为 32 的向量序列 model.add(LSTM(32, return_sequences=True)) # 返回维度为 32 的向量序列 model.add(LSTM(32)) # 返回维度为 32 的单个向量 model.add(Dense(10, activation='softmax')) model0 码力 | 257 页 | 1.19 MB | 1 年前3
共 45 条
- 1
- 2
- 3
- 4
- 5













