机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob2. 随机变量 2.1 累积分布函数 2.2 概率质量函数 2.3 概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 的概率没有任何影响。 2. 随机变量 考虑一个实验,我们翻转10枚硬币,我们想知道正面硬币的数量。这里,样本空间 的元素是长度为10 的序列。例如,我们可能有 , , , , , , , , , 。然而,在实践中,我 们通常不关心获得任何特定正反序列的概率。相反,我们通常关心结果的实值函数,比如我们10次投掷 中出现的正面数,或者最长的背面长度。在某些技术条件下,这些函数被称为随机变量。 更正式地说,随机变量 更正式地说,随机变量 是一个的 函数。通常,我们将使用大写字母 或更简单的 (其中 隐含对随机结果 的依赖)来表示随机变量。我们将使用小写字母 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个 特定值 的概率为: 图1:一个累计分布函数(CDF)0 码力 | 12 页 | 1.17 MB | 1 年前3
机器学习课程-温州大学-概率论回顾目录 01 随机事件和概率 02 随机变量及其概率分布 03 多维随机变量及其分布 05 数理统计的基本概念 04 随机变量的数字特征 3 1.随机事件和概率 01 随机事件和概率 02 随机变量及其概率分布 03 多维随机变量及其分布 05 数理统计的基本概念 04 随机变量的数字特征 4 1.事件的关系与运算 (1) 或0)的事件与任何事件相互独立. 1.随机事件和概率 14 2.随机变量及其概率分布 01 随机事件和概率 02 随机变量及其概率分布 03 多维随机变量及其分布 05 数理统计的基本概念 04 随机变量的数字特征 15 1.随机变量及概率分布 取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机 变量,概率分布通常指分布函数或分布律 2.分布函数的概念与性质 (3)右连续?(? + 0) = ?(?) (4)?(−∞) = 0, ?(+∞) = 1 2.随机变量及其概率分布 16 3.离散型随机变量的概率分布 ?(? = ??) = ??, ? = 1,2, ⋯ , ?, ⋯ ?? ≥ 0, σ?=1 ∞ ?? = 1 4.连续型随机变量的概率密度 概率密度?(?);非负可积,且:(1)?(?) ≥ 0, (2)−∞ +∞ ?(?)?0 码力 | 45 页 | 862.61 KB | 1 年前3
Keras: 基于 Python 的深度学习库ACTIVATIONS 144 10.2.3 selu selu(x) 可伸缩的指数线性单元 (Klambauer et al., 2017)。 Arguments • x: 一个用来用于计算激活函数的张量或变量。 Returns 与 x 具有相同类型及形状的张量。 Note • 与”lecun_normal” 初始化方法一起使用。 • 与 dropout 的变种”AlphaDropout” 一起使用。 "tensorflow" } 只需将字段 backend 更改为 theano,tensorflow 或 cntk,Keras 将在下次运行 Keras 代码 时使用新的配置。 你也可以定义环境变量 KERAS_BACKEND,这会覆盖配置文件中定义的内容: KERAS_BACKEND=tensorflow python -c "from keras import backend" Using placeholder(ndim=3) 下面的代码实例化一个变量。它等价于 tf.Variable() 或 th.shared()。 import numpy as np val = np.random.random((3, 4, 5)) var = K.variable(value=val) # 全 0 变量: var = K.zeros(shape=(3, 4, 5)) # 全 1 变量: var = K.ones(shape=(30 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.05.1 一个简单的例子 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70 2.5.2 非标量变量的反向传播 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71 2.5.3 分离计算 . . . . . . 基本概率论 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74 2.6.2 处理多个随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 期望和方差 . . . . . P(·):概率分布 • z ∼ P: 随机变量z具有概率分布P • P(X | Y ):X | Y 的条件概率 • p(x): 概率密度函数 • Ex[f(x)]: 函数f对x的数学期望 • X ⊥ Y : 随机变量X和Y 是独立的 • X ⊥ Y | Z: 随机变量X和Y 在给定随机变量Z的条件下是独立的 • Var(X): 随机变量X的方差 • σX: 随机变量X的标准差 • Cov(X,0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)有相同的特征值 5) |?| = |?|,从而?, ?同时可逆或者不可逆 6) 秩(?) =秩(?), |?? − ?| = |?? − ?|,?, ?不一定相似 二次型 1.?个变量??, ??, ⋯ , ??的二次齐次函数 机器学习的数学基础 17 ?(?1, ?2, ⋯ , ??) = ∑ ∑ ??????? ? ?=1 ? ?=1 ,其中??? = ⋯ , ??)也相互 独立,其中?(⬝),?(⬝)分别表示对相应事件做任意事件运算后所得的事件,另外,概率为 1 (或 0)的事件与任何事件相互独立. 随机变量及其概率分布 1.随机变量及概率分布 取值带有随机性的变量,严格地说是定义在样本空间上,取值于实数的函数称为随机变 量,概率分布通常指分布函数或分布律 2.分布函数的概念与性质 定义: ?(?) = ?(? ≤ (3)右连续?(? + 0) = ?(?) (4)?(−∞) = 0, ?(+∞) = 1 3.离散型随机变量的概率分布 ?(? = ??) = ??, ? = 1,2, ⋯ , ?, ⋯ ?? ≥ 0, ∑ ?? ∞ ?=1 = 1 4.连续型随机变量的概率密度 概率密度?(?);非负可积,且:(1)?(?) ≥ 0, (2)∫ ?(?)?? = 1 +∞ −∞0 码力 | 31 页 | 1.18 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112rch 还会自动 构建计算图,通过 PyTorch 提供的自动求导的功能,不需要手动推导,就可计算输出对网 络参数的偏导数。考虑如下函数的表达式: = ?? + ?? + ? 输出 对于变量?的导数关系为: d d? = 2?? + ? 考虑在(?, ?, ?, ?) = (1,2,3,4)处的导数,代入上式可得 d? d? = 2 ∙ 1 ∙ 4 + 2 = 10。因此通过手 安装完成后,我们来测试 CUDA 软件是否安装成功。打开 cmd 命令行,输入“nvcc - V”,即可打印当前 CUDA 的版本信息,如图 1.29 所示,如果命令无法识别,则说明安装 失败。同时也可以从系统环境变量 Path 中找到 CUDA 10.1 的路径配置,如图 1.28 所示。 图 1.27 CUDA 安装界面-3 图 1.28 CUDA 安装结果测试-1 图 1.29 是否可用,返回“True”或者“False”,代表了 GPU 设备是否可用,如图 1.32 所示。如果为 True,则 PyTorch GPU 版本安装成功;如果 为 False,则安装失败,需要再次检查 CUDA、环境变量等步骤,或者复制错误,从搜索引 擎中寻求帮助。 预览版202112 1.6 开发环境安装 21 图 1.32 PyTorch-GPU 安装结果测试 如果没有支持 CUDA0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程•目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。 •简而言之,EDA的目标是确定我们的数据可以告诉我们什么! 探索性数据分析(EDA) 11 探索性数据分析(EDA) 单变量图显示此变量的分布 plt.hist()可以显示单变量图,也叫 直方图 12 探索性数据分析(EDA) boxplot 单独以点汇出。如果没有比最大观测值大的数,则 上限为最大值。 14 探索性数据分析(EDA) 寻找关系 为了查看分类变量 - categorical variables对分数的影 响,我们可以通过分类变量的值来绘制密度图。 密度图 还显示单个变量的分布,可以认为是平滑的直方图。 如 果我们通过为分类变量密度曲线着色,这将向我们展示 分布如何基于类别变化的。 15 探索性数据分析(EDA) 这幅图我们可以看到建筑类型对 量的好方法,因为它显示了 对角线上的变量对和单个变 量直方图之间的散点图。 18 3.特征工程 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 19 3.特征工程 特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对 变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码 ,以便它们可以在模型中使用。0 码力 | 26 页 | 1.53 MB | 1 年前3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测乘函数对一个或多个自变量和因变 量之间关系进行建模的一种回归分析。这种函数是一个或多个称为回归系数的模型参数的线 性组合。 前置知识:单变量线性回归 理想函数 假设函数 损失值(误差) 前置知识:单变量线性回归 前置知识:梯度下降 前置知识:多变量线性回归 假设函数 损失值(误差) 理想函数 前置知识:梯度下降 单变量房价预测问题 假设函数: 1416 232000 3000 539900 1985 299900 1534 314900 1427 198999 1380 212000 1494 242500 训练数据: 多变量房价预测问题:数据分析 面积(平方英尺) 卧室数量(个) 价格(美元) 2104 3 399900 1600 3 329900 2400 3 369000 1416 2 232000 3000 198999 1380 3 212000 1494 3 242500 训练数据: 数据分布: 多变量房价预测问题:特征归一化 房屋面积和卧室数量这两个变量(特征)在数值上差了1000倍。在这种情况下,通常先进 行特征缩放(Scaling),再开始训练,可以加速模型收敛。 平均值 标准差 多变量房价预测问题 面积(平方英尺) 卧室数量(个) 价格(美元) 0.13001 -0.223680 码力 | 46 页 | 5.71 MB | 1 年前3
机器学习课程-温州大学-特征工程#哑编码,对IRIS数据集的目标值,返回值为哑编码后的数据 OneHotEncoder().fit_transform(iris.target.reshape((-1,1))) 12 分箱 一般在建立分类模型时,需要对连续变量离散化,特征离散化后, 模型会更稳定,降低了模型过拟合的风险。 2. 特征构建 设成绩为:[63 64 88 71 42 60 99 70 32 88 34 69 83 52 66 92 82 先要计算各个特征的方差,然后根据阈值,选择方差大 于阈值的特征。 3、相关系数法 先要计算各个特征对目标值的相关系数以及相关系数的 ? 值。 4、卡方检验 检验定性自变量对定性因变量的相关性。假设自变量有 ?种取值,因变量有?种取值,考虑自变量等于 ? 且因 变量等于 ? 的样本频数的观察值与期望的差距,构建统 计量: 过滤式 4. 特征选择 ?2 = (A − E)2 ? 31 许永洪,吴林颖 吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 5、互信息法 概念:经典的互信息也是评价定性自变量对定性因变量的相关性的。 为了处理定量数据,最大信息系数法被提出。 互信息计算公式如下: ?(X; Y) = ?∈? ?∈? ?(?, ?) log ?(?, ?) ?(?)?(?) 过滤式 4. 特征选择 32 许永洪,吴林颖.中0 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra最小二乘法 4.5 行列式的梯度 4.6 特征值优化 线性代数复习和参考 1. 基础概念和符号 线性代数提供了一种紧凑地表示和操作线性方程组的方法。 例如,以下方程组: 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 和 的唯一解(除非方程以某 种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一 解)。 在矩阵表示法中,我们可以更紧凑地表达: 原则上,梯度是偏导数对多变量函数的自然延伸。然而,在实践中,由于符号的原因,使用梯度有时是 很困难的。例如,假设 是一个固定系数矩阵,假设 是一个固定系数向量。设 为 定义的函数,因此 。但现在考虑表达式, 该表达式应该如何解释? 至少有两种可能性: 1.在第一个解释中,回想起 。 在这里,我 们将 解释为评估点 处的梯度,因此: 2.在第二种解释中,我们将数量 视为输入变量 的函数。 更正式地说,设 。 然后 在这个解释中: 在这里,我们可以看到这两种解释确实不同。 一种解释产生 维向量作为结果,而另一种解释产生 维 向量作为结果! 我们怎么解决这个问题? 这里,关键是要明确我们要区分的变量。 在第一种情况下,我们将函数 与其参数 进行区分,然后替 换参数 。 在第二种情况下,我们将复合函数 直接与 进行微分。 我们将第一种情况表示为 ,第二种情况表示为 。 保持符号清晰是非常重要的,以后完成课程作业时候你就会发现。0 码力 | 19 页 | 1.66 MB | 1 年前3
共 27 条
- 1
- 2
- 3













