机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)9.微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 Th2:(罗尔定理) 设函数?(?)满足条件: (1)在闭区间[?, ?]上连续; (2)在(?, ?)内可导;(3) ,使 ?′(?) = 0 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?−? = ?′(?) Th4: (柯西中值定理) 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在(?, ?)内可导且?′(?),?′( )内存在一个?,使 ?(?)−?(?) ?(?)−?(?) = ?′(?) ?′(?) 10.洛必达法则 法则Ⅰ( ? ?型不定式极限) 设函数?(?), ?(?)满足条件: lim ?→?0 ?(?) = 0, lim ?→?0 ?(?) = 0; ?(?),?(?)在?0的邻域内可导 (在?0处可除外)且?′(?) ≠ 0; 机器学习的数学基础 50 码力 | 31 页 | 1.18 MB | 1 年前3
机器学习课程-温州大学-12机器学习-关联规则前缀路径将是{I2,I1,I3:1},{I2,I3:1}。这形成了条件 模式基。 3.将条件模式基视为事务数据库,构造FP树。这 将包含{I2:2,I3:2},不考虑I1,因为它不满足最小支 持计数。 Null l4:1 l2:5 l1:4 l3:1 l5:1 l3:3 l4:1 l5:1 l4:1 “条件模式基” 指的是以要挖掘的节点为叶子节点,自底向上求出 FP 子树,然后将 FP树:{I2:4},并生成频繁模式:{I2,I1:4}。 Null l4:1 l2:5 l1:4 l3:1 l5:1 l3:3 l4:1 l5:1 l4:1 39 3.FP-Growth算法 项目 条件模式基 条件FP树 生成的频繁集 I4 {I2,I1,I3:1},{I2,I3:1} {I2:2, I3:2} {I2,I4:2},{I3,I4:2},{I2,I3,I4:2} I3 {I2,I1:3} I3:4}, {I1:I3:3}, {I2,I1,I3:3} I1 {I2:4} {I2:4} {I2,I1:4} 下面给出的图描绘了与条件节点l3相关联的条件FP树。 项目 支持度 链表 l2 4 l1 3 Null l1:3 l2:3,1 根据条件FP树,我们可以进 行全排列组合,得到挖掘出 来的频繁模式(这里要将商 品本身,如I4也算进去,每 个商品挖掘出来的频繁模式 必然包括这商品本身)0 码力 | 49 页 | 1.41 MB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯的联合概率表示为? ?, ? 、 ?(??) 或?(? ∩ ?) 。 联合概率: 假设?和?都服从正态分布,那么?(? < 5, ? < 0)就是一个联合概 率,表示 ? < 5, ? < 0两个条件同时成立的概率。表示两个事件 共同发生的概率。 1.贝叶斯方法-背景知识 6 1. 贝叶斯方法 贝叶斯公式 后验概率 似然度 先验概率 边际似然度 ?(?|?) = ?(?, ?) 判别模型和生成模型 判别模型(Discriminative Model) 生成模型(Generative Model) 由数据直接学习决策函数Y=f(X)或者条件概率分 布P(Y|X)作为预测的模型,即判别模型。基本思 想是有限样本条件下建立判别函数,不考虑样本 的产生模型,直接研究预测模型。 即:直接估计?(?|?) 由训练数据学习联合概率分布 ?(?, ?),然后求 得后验概率分布 概率估计方法可以是极大似然估计或贝叶斯估计。 10 2.朴素贝叶斯原理 2.朴素贝叶斯法的基本假设是条件独立性。 P(X = x|Y = ck) = P x(1), ⋯ , x(n)|yk = ςj=1 n P x(j)|Y = ck ck代表类别,k代表类别个数。 这是一个较强的假设。由于这一假设,模型包含的条件概率的数量大为减 少,朴素贝叶斯法的学习与预测大为简化。因而朴素贝叶斯法高效,且易 于实现。其缺点是分类的性能不一定很高。0 码力 | 31 页 | 1.13 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob概率论复习和参考 1. 概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 可以被认为是实验结束时现 实世界状态的完整描述。 事件集(事件空间) :元素 的集合(称为事件)是 的子集(即每个 是一个实 验可能结果的集合)。 备注: 需要满足以下三个条件: (1) (2) (3) 概率度量 :函数 是一个 的映射,满足以下性质: 对于每个 , , 如果 是互不相交的事件 (即 当 时, ), 那么: 以上三条性质被称为概率公理。 性质: 如果 ,则: (布尔不等式): (全概率定律):如果 , , 是一些互不相交的事件并且它们的并集是 ,那么它们的概率之 和是1 1.1 条件概率和独立性 假设 是一个概率非0的事件,我们定义在给定 的条件下 的条件概率为: 换句话说, )是度量已经观测到 事件发生的情况下 事件发生的概率,两个事件被称为独立事件 当且仅当 (或等价地, )。因此,独立性相当于是说观察到事0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-概率论回顾≠ ?, ⋃ ? ?=1 = ? 1.随机事件和概率 6 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: 概率?(?)为定义在事件集合上的满足下面3个条件的函数: 1)对任何事件?,?(?) ≥ 0 2)对必然事件?,?(?) = 1 3)对?1?2 ⋯ ??, ⋯ ,若???? = ⌀(? ≠ ?),则:?( ⋃ ∞ ?=1 ??) = σ 且每个样本点的出现具有等可能性, 其概率计算公式: ?(?) = ?的度量(长度、面积、体积) ?的度量(长度、面积、体积) 1.随机事件和概率 9 6.概率的基本公式 (1) 条件概率: ?(?|?) = ?(??) ?(?) ,表示?发生的条件下,?发生的概率 (2) 全概率公式: ?(?) = σ?=1 ? ?(?|??)?(??), ???? = ⌀, ? ≠ ?, ⋃ ? ?=1 ?? = (4) ?(??) = ?(?) − ?(??), ?(?) = ?(??) + ?(??), ?(?⋃?) = ?(?) + ?(??) = ?(??) + ?(??) + ?(??) (5) 条件概率?(⬝|?)满足概率的所有性质, 例如:. ?(?1|?) = 1 − ?(?1|?) ?(?1⋃?2|?) = ?(?1|?) + ?(?2|?) − ?(?1?2|?) ?(?1?2|?)0 码力 | 45 页 | 862.61 KB | 1 年前3
动手学深度学习 v2.0GloVe模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672 14.5.3 从条件概率比值理解GloVe模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672 14.6 子词嵌入 . . . . . . 用现有硬件的工程方法。同时教授表述问题所需的批 判性思维技能、解决问题所需的数学知识,以及实现这些解决方案所需的软件工具,这是一个巨大的挑战。 在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 所有领域,技术深度丰富;(3)在一本引人入胜的教科书中,人们可以在实践教程中找到干净的可运行代码, 并从中穿插高质量的阐述。我们发现了大量关于如何使 全书大致可分为三个部分,在 图1 中用不同的颜色呈现: 目录 3 图1: 全书结构 • 第一部分包括基础知识和预备知识。1节 提供深度学习的入门课程。然后在 2节 中,我们将快速介绍实 践深度学习所需的前提条件,例如如何存储和处理数据,以及如何应用基于线性代数、微积分和概率基 本概念的各种数值运算。3节 和 4节 涵盖了深度学习的最基本概念和技术,例如线性回归、多层感知机 和正则化。 • 接下来的五章集中讨论现代深度学习技术。5节0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-高等数学回顾微分中值定理,泰勒公式 Th1:(费马定理) 若函数?(?)满足条件: (1)函数?(?)在?0的某邻域内有定义,并且在此邻域内恒有 ?(?) ≤ ?(?0)或?(?) ≥ ?(?0), (2) ?(?)在?0处可导,则有 ?′(?0) = 0 14 高等数学 Th3: (拉格朗日中值定理) 设函数?(?)满足条件: (1)在[?, ?]上连续;(2)在(?, ?)内可导; 则在( 设函数?(?),?(?)满足条件: (1) 在[?, ?]上连续;(2) 在(?, ?)内可导且?′(?),?′(?)均存在,且?′(?) ≠ 0 则在(?, ?)内存在一个?,使 ?(?)−?(?) ?(?)−?(?) = ?′(?) ?′(?) 16 高等数学 10.洛必达法则 法则Ⅰ( ? ?型不定式极限) 设函数? ? , ? ? 满足条件: lim ?→?0 ? ? = 存在(或∞)。 则: lim ?→?0 ? ? ? ? = lim ?→?0 ?′ ? ?′ ? 17 高等数学 法则?’ ( ? ?型不定式极限) 设函数? ? , ? ? 满足条件: lim ?→∞ ? ? = 0, lim ?→∞ ? ? = 0;存在一个? > 0,当 ? > ?时,? ? , ? ? 可 导,且?′ ? ≠ 0; lim ?→?0 ?′ ? ?′0 码力 | 28 页 | 787.86 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112[11]: a = torch.tensor([True]) # 创建 pytorch 布尔张量 if a: # 测试 if 条件 print('True') a==True # 测试与 True 比对结果 Out[11]: True # if 条件成立 tensor([True]) # ==比对自动转换为 PyTorch 张量 4.2 数值精度 对于数值 ′ ] 相加,此时?′与?′ shape 相同,满足矩阵相加的数学条件,即: ? = ?′ + ?′ = [ 11 ′ 12 ′ 1 ′ 21 ′ 22 ′ 2 ′ ] + [?1 ?2 ? ?1 ?2 ? ] 通过这种方式,既满足了数学上矩阵相加需要 shape 一致的条件,又达到了给每个输入样 本的输出节点共享偏置向量的逻辑。为了实现这种运算方式,需要给偏置向量 类似于向量的一维结构,无法表达高维 预览版202112 4.7 维度变换 23 数据结构。因此对于同样的存储,可以有不同的维度理解方式,比如上述张量?,可以在 不改变张量的存储的条件下,将张量?理解为 2 个样本,每个样本的特征是长度 48 的向 量,甚至还可以理解为 4 个样本,每个样本的特征是长度为 24 的向量。同一个存储,从不 同的角度观察数据,可以产生不同的视图,这就是存储与视图的关系。视图的产生是非常0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-15深度学习-GAN深度学习中常见生成式模型 自编码(AE) 其隐变量z是一个单值映射:z=f(x) 变分自编码(VAE) 其隐变量z是一个正态分布的采样 生成式对抗网络(GAN) 条件生成式对抗网络(CGAN) 在生成器和判别器中添加某一标签信息 深度卷积生成式对抗网络(DCGAN) 判别器和生成器都使用了卷积神经网络(CNN)来替代GAN 中的多层感知机 Improved GAN WGAN ...... 2. GAN的理论与实现模型 18 GAN的衍生模型 GAN的理论与实现模型 (1)CGAN--条件生成对抗网络,为了防止训练崩塌将前置条件加入输入数据。 图 条件生成对抗网络的结构 2. GAN的理论与实现模型 19 GAN的衍生模型 GAN的理论与实现模型 (2)DCGAN--深度卷积生成对抗网络,提出了能稳定训练的网络结构, 问题;在训练时,和传统更新多次判别器参数再更新一次生成器不同, 需要多 次更新生成器再更新 CNN 判别器。 SeqGAN 基于策略梯度来训练生成器。 c. 用GAN 基于文本描述来生成图像,文本编码被作为生成器的条件输入,同 时为了利用文本编码信息,也将其作为判别器特定层的额外信息输入来改进判 别器,判别是否满足文本描述的准确率。 3. GAN的应用 28 GAN的应用 其他领域 除了将 GAN0 码力 | 35 页 | 1.55 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树节点的存放的类别作为决策结果。 根节点 (root node) 叶节点 (leaf node) 5 1.决策树原理 根节点 (root node) 非叶子节点 (non-leaf node) (代表测试条件,对数据属性的测试) 分支 (branches) (代表测试结果) 叶节点 (leaf node) (代表分类后所获得的分类标记) ⚫ 决策树算法是一种归纳分类算法 ,它通过对训练集的学习,挖掘 算法计算每个属性的信息增益,并选取具有最高增益的属性作为给 定的测试属性。 ID3 算法 10 2.ID3算法 ID3 算法 其大致步骤为: 1. 初始化特征集合和数据集合; 2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 前决策节点; 3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不 同分支的数据集合); 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 − 1 5 ???2 1 5 = 0.7219 ?1 年龄 ?2 有工作 ?3 有房子 ?4 信用 13 ? ? ? = ?=1 ? ?? ? ?(??) 条件熵 A是特征, ?是特征取值 条件熵 ? ? 年龄 = ?=1 ? ?? ? ?(??) = 5 15 × 0.971 + 5 15 × 0.971 + 5 15 ×0.7219 = 0.88800 码力 | 39 页 | 1.84 MB | 1 年前3
共 25 条
- 1
- 2
- 3













