机器学习课程-温州大学-概率论回顾
1 2021年07月 机器学习-概率论回顾 黄海广 副教授 2 目录 01 随机事件和概率 02 随机变量及其概率分布 03 多维随机变量及其分布 05 数理统计的基本概念 04 随机变量的数字特征 3 1.随机事件和概率 01 随机事件和概率 02 随机变量及其概率分布 03 多维随机变量及其分布 05 数理统计的基本概念 积事件:?⋂?(或??),?与?同时发生。 (6) 互斥事件(互不相容):?⋂?=⌀。 (7) 互逆事件(对立事件): ?⋂? = ⌀, ?⋃? = ?, ? = ?, ? = ? 。 1.随机事件和概率 5 2.运算律 (1) 交换律:?⋃? = ?⋃?, ?⋂? = ?⋂? (2) 结合律:(?⋃?)⋃? = ?⋃(?⋃?); (?⋂?)⋂? = ?⋂(?⋂?) (3) 分配律:(?⋃ 4.完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 1.随机事件和概率 6 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: 概率?(?)为定义在事件集合上的满足下面3个条件的函数: 1)对任何事件?,?(?) ≥ 0 2)对必然事件?,?(?) = 1 3)对?1?2 ⋯0 码力 | 45 页 | 862.61 KB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob
机器学习课程复习材料-概率论 CS229 机器学习课程复习材料-概率论 概率论复习和参考 1. 概率的基本要素 1.1 条件概率和独立性 2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 4.2 随机向量 4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记 试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测 “分析”的一个分支:测 度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。 1. 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素, 样本空间 :随机实验的所有结果的集合。在这里,每个结果 可以被认为是实验结束时现 实世界状态的完整描述。 事件集(事件空间) :元素 的集合(称为事件)是 的子集(即每个 是一个实 验可能结果的集合)。0 码力 | 12 页 | 1.17 MB | 1 年前3机器学习课程-温州大学-04机器学习-朴素贝叶斯
朴素贝叶斯代码实现 4 1.贝叶斯方法-背景知识 先验概率: 后验概率: 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为 基础,故统称为贝叶斯分类。 根据以往经验和分析得到的概率。我们用?(?)来代表在没有训练 数据前假设?拥有的初始概率。 根据已经发生的事件来分析得到的概率。以?(?|?)代表假设? 成 立的情下观察到?数据的概率,因为它反映了在看到训练数据? 后?成立的置信度。 成立的置信度。 贝叶斯分类: 5 联合概率是指在多元的概率分布中多个随机变量分别满足各自条 件的概率。?与?的联合概率表示为? ?, ? 、 ?(??) 或?(? ∩ ?) 。 联合概率: 假设?和?都服从正态分布,那么?(? < 5, ? < 0)就是一个联合概 率,表示 ? < 5, ? < 0两个条件同时成立的概率。表示两个事件 共同发生的概率。 1.贝叶斯方法-背景知识 6 1 1. 贝叶斯方法 贝叶斯公式 后验概率 似然度 先验概率 边际似然度 ?(?|?) = ?(?, ?) ?(?) = ?(?|?)?(?) ?(?) 朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率 分布 ?(?, ?),然后求得后验概率分布?(?|?)。 具体来说,利用训练数据学习?(?|?)和?(?)的估计,得到联合概率分布: ?(?, ?)=?(?|?) ?(0 码力 | 31 页 | 1.13 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)
............................................................................................... 9 概率论和数理统计 ............................................................................................ (? > 0), ??, ?−1,?∗正定; |?| > 0, ?可逆;??? > 0,且 |???| > 0 。 机器学习的数学基础 19 概率论和数理统计 随机事件和概率 1.事件的关系与运算 (1) 子事件:? ⊂ ?,若?发生,则?发生。 (2) 相等事件:? = ?,即? ⊂ ?,且? ⊂ ? 。 (3) 和事件:?⋃?(或 完全事件组 ?1?2 ⋯ ??两两互斥,且和事件为必然事件,即??⋂?? = ⌀, ? ≠ ?, ⋃ ? ?=1 = ? 5.概率的基本概念 (1) 概率:事件发生的可能性大小的度量,其严格定义如下: 机器学习的数学基础 20 概率?(?)为定义在事件集合上的满足下面 3 个条件的函数: 1)对任何事件?,?(?) ≥ 0 2)对必然事件?,?(?) =0 码力 | 31 页 | 1.18 MB | 1 年前3动手学深度学习 v2.0
. . . . . . . . . . . . . . . . . 72 2.6 概率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73 2.6.1 基本概率论 . . . . . . . . . . . . . . . . . . . . . GloVe模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672 14.5.3 从条件概率比值理解GloVe模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 672 14.6 子词嵌入 . . . . . . . 性文本的实用性。 在这本书中,我们将适时教授大部分概念。换句话说,你将在实现某些实际目的所需的非常时刻学习概念。 虽然我们在开始时花了一些时间来教授基础的背景知识,如线性代数和概率,但我们希望你在思考更深奥的 概率分布之前,先体会一下训练模型的满足感。 除了提供基本数学背景速成课程的几节初步课程外,后续的每一章都介绍了适量的新概念,并提供可独立工 作的例子——使用真实的数据集。这带来了组0 码力 | 797 页 | 29.45 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
法的相关背景知识,体会到知 识是为了解决问题而生的,避免陷入为了学习而学习的窘境。 尽管作者试图将读者的基础要求降到最低,但是人工智能不可避免地需要使用正式化的 数学符号推导,其中涉及到少量的概率与统计、线性代数、微积分等数学知识,一般要求读 者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 入手,为大家介绍深度学习的一些主流应用。 1.4.1 计算机视觉 图片识别(Image Classification) 是常见的分类问题。神经网络的输入为图片数据,输出 值为当前样本属于每个类别的概率分布。通常选取概率值最大的类别作为样本的预测类 别。图片识别是最早成功应用深度学习的任务之一,经典的网络模型有 VGG 系列、 ResNet 系列、EfficientNet 系列等。 目标检测(Object 编码并不 适合分类网络的输出。 那么怎么解决这个问题呢?可以将输出设置为?out个输出节点的向量,?out与类别数相 同,同时让第? ∈ [1,?out]个输出节点的值表示当前样本属于类别?的概率值 ?(?属于类别?|?)。只考虑输入图片属于某一个类别的情况,此时输入图片的真实标签已经 唯一确定:如果样本属于第?类的话,那么索引为?的位置上设置为 1,其它位置设置为 0, 一般把这种编码方式叫作0 码力 | 439 页 | 29.91 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
机器学习首先要考虑使用什么样的模型。 模型的类别,大致有两种:一是概率模型(Probabilistic Model)和非概率模型 (Non-Probabilistic Model)。 在监督学习中,概率模型可被表示为?(?|?),非概率模型则为? = ?(?)。 其中,?是输入,?是输出。 在无监督学习中,概率模型可被表示为?(?|?),非概率模型则为? = ?(?)。 其中,?是输入,?是输出。 是输出。 21 决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型属于概率模型。 感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络均属于非概 率模型。 对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。 感知机、线性支持向量机、KNN、K-means是线性模型。 核支持向量机、AdaBoost、神经网络属于非线性模型。 机器学习的概念-模型 22 omega omiga 欧米 29 3. 机器学习的背景知识-数学基础 高等数学 导数、微分、泰勒公式…… 线性代数 向量、矩阵、行列式、秩、线性方程组、特征值和特征向量…… 概率论与数理统计 随机事件和概率、概率的基本性质和公式、常见分布、期望、协 方差…… 30 高等数学-导数 导数(Derivative),也叫导函数值。又名微商, 是微积分中的重要基础概念。当函数? = ?(?)0 码力 | 78 页 | 3.69 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
omega omiga 欧米 30 3. 深度学习的背景知识-数学基础 高等数学 导数、微分、泰勒公式…… 线性代数 向量、矩阵、行列式、秩、线性方程组、特征值和特征向量…… 概率论与数理统计 随机事件和概率、概率的基本性质和公式、常见分布、期望、协 方差…… 31 高等数学-导数 导数(Derivative),也叫导函数值。又名微商, 是微积分中的重要基础概念。当函数? = ?(?) = ? ?,其中:?∗ = ?11 ?21 … ??1 ?12 ?22 … ??2 … … … … ?1? ?2? … ??? = (???) = (???)T 44 概率论与数理统计-随机事件和概率 事件的关系 (1) 子事件:? ⊂ ?,若?发生,则?发生。 (2) 相等事件:? = ?,即? ⊂ ?,且? ⊂ ? 。 (3) 和事件:?⋃?(或? + ?),?与?中至少有一个发生。 = ?⋂(?⋂?) (3) 分配律:(?⋃?)⋂? = (?⋂?)⋃(?⋂?) (4) 德.摩根律: ?⋃? = ?⋂? ?⋂? = ?⋃? 45 概率论与数理统计-古典型概率 定义:试验?中样本点是有限的,出现每一样本点的概率是相同 。 一袋中有8个球,编号为1-8,其中1-3号为红球,4-8号为黄球, 设摸到每一球的可能性相等,从中随机摸一球,记? ={ 摸到红球 },求?(?)。0 码力 | 80 页 | 5.38 MB | 1 年前3对 Go 程序进行可靠的性能测试
时,频率一定收敛到某个值 ● 概率:频率收敛到的值,性质之一: ● 独立:两个事件互不影响,性质之一: ● 随机变量:是一个函数,参数是所有可能的样本,返回值是这些样本的取值,例如 ● 期望:随机变量以其概率为权重的加权平均值,即 ● 方差:样本取值与期望之间的「距离」,距离定义为差的平方和,即 ● 概率密度函数:是一个函数,参数是随机变量取值,返回值是随机变量取得该值的概率 ● 累积分布函数:随机变量取值小于某个值的概率 累积分布函数:随机变量取值小于某个值的概率 ● 正态分布:一种特殊的概率密度函数 ● 中心极限定理:无穷多个独立的随机变量的和服从正态分布 * 额外的说明见演讲者备注 2020 © Changkun Ou · Go 夜读 · 对 Go 程序进行可靠的性能测试 检验的类型 19 ● 统计是一套在总体分布函数完全未知或者只知道形式、不知参数的情况下,为了由样本推断总体的某些未知特性,形成的 一套方法论。 零假设 H0:想要驳回的论点 备择假设 H1:拒绝零假设后的备用项,我们想要证明的论点 p 值:零假设发生的概率 显著性水平:可靠程度 例如:在性能基准测试中, H0:代码修改前后,性能没有提升 H1:代码修改前后,性能有显著提升 p < 0.05:H0 发生的概率小于 5%,在至少 95% 的把握下,性能有显著提升 拒绝 H0 接受 H0 临界值 2020 © Changkun0 码力 | 37 页 | 1.23 MB | 1 年前3Moonshot AI 介绍
体的例⼦是,⽉之暗⾯希望⽐ OpenAI更关⼼⽤⼾,原因是杨植麟判断⽤⼾数据的scaleup的效果最终会超越basemodel⾃⾝。 杨植麟对于⽤transformer这个概率模型的思想基础⾛向AGI也很有信⼼,⽤他的话说“如果你有10 亿的contextlength,今天看到的问题都不是问题”。 AGI:AI本质就是⼀堆scalinglaw 杨植麟:可解释性核⼼是个信任的问题。建⽴⼀个信任的⼼智是很重要的,对应的应⽤场景甚⾄可能 和ChatGPT的也会不同,⽐如long-context和搜索的结合。 当模型完全不hallucinate或者概率⾮常低,就不需要解释了,因为它说的东西都是对的。⽽且解释有 可能也只是alignment的⼀部分,⽐如说chain-of-thought也可以被认为是⼀种解释。 Hallucinati ⼀个统计概率模型,它能通往AGI吗? 杨植麟:统计模型没有什么问题。当nexttokenprediction⾜够好的时候,它能够平衡创造性和事实 性。 事实性⼀般是对统计模型的挑战,但是今天的语⾔模型可以有⾮常尖峰的分布。让它回答“中国的⾸ 都”,模型对“北”这个字能给出99%的概率。同时,如果我今天让它写⼀本⼩说,那它可能下⼀个 词的概率分布就会很均匀。概率其实是⼀个0 码力 | 74 页 | 1.64 MB | 1 年前3
共 281 条
- 1
- 2
- 3
- 4
- 5
- 6
- 29