机器学习课程-温州大学-05机器学习-机器学习实践## 机器学习-机器学习实践 黄海广 副教授 2022年02月 ## 本章目录 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 ## 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation 类情况,提高对少类样本分类的查全率,但是也会将很多多类样本分类为少类样本,降低少类样本分类的查准率。 ### 2. 评价指标 ## 01 数据集划分 ## 02 评价指标 03 正则化、偏差和方差 ## 评价指标 1. 正确肯定(True Positive, TP):预测为真,实际为真 2. 正确否定(True Negative, TN):预测为假,实际为假 3. 错误肯定(False uments/4/4/0/8/44080acc01be0b7f2aa90282cb8ae007/p13_1.jpg) ### 3. 正则化、偏差和方差 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 3. 正则化、偏差和方差 ## 为什么要标准化/归一化? 提升模型精度:不同维度之间的特征在数值上有一定比较性,可以大大提高分类器的准确性。 加速模型收敛:最优解的寻0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob概率密度函数 2.4 期望 2.5 方差 2.6 一些常见的随机变量 3. 两个随机变量 3.1 联合分布和边缘分布 3.2 联合概率和边缘概率质量函数 3.3 联合概率和边缘概率密度函数 3.4 条件概率分布 3.5 贝叶斯定理 3.6 独立性 3.7 期望和协方差 4. 多个随机变量 4.1 基本性质 $ E[1\{X=k\}] = P(X=k) $ ### 2.5 方差 随机变量X的方差是随机变量X的分布围绕其平均值集中程度的度量。形式上,随机变量X的方差定义为: $$ \mathrm{Var}[X]\triangleq E\left[(X-E(X))^{2}\right] $$ 使用上一节中的性质,我们可以导出方差的替代表达式: $$ \begin{aligned}E\left $ , $ Val[a] = 0 $ • 对于任意常数 $ a \in R $ , $ Var[af(X)] = a^{2}Var[f(X)] $ 举例: 计算均匀随机变量X的平均值和方差,任意 $ x\in[0,1] $ ,其PDF为 $ p_{X}(x)=1 $ ,其他地方为0。 $$ E[X]=\int_{-\infty}^{\infty}xf_{X}(x)dx=\int_0 码力 | 12 页 | 1.17 MB | 2 年前3
机器学习课程-温州大学-11机器学习-降维,分析数据会更快、更容易,而不需要处理额外的特征。 ### 3. PCA(主成分分析) ## 主成分分析流程图: 尽可能多地找出相关指标作为原始指标 原始指标的线性组合 综合指标间不相关,且方差递减 第一主成分,第二主成分,... 第p主成分 选取前几个最大的主成分代替原来指标的信息 ### 3. PCA(主成分分析) 主成分分析的几何解释  通过平移、旋转坐标轴,找到主成分pc1和pc2 ### 3. PCA(主成分分析) PCA识别在训练集中占最大方差量的轴。 在图1中,它是实线。它还找到与第一个轴正交的第二个轴,它考虑了剩余方差的最大量。在这个2D示例中,它是虚线。如果它是一个更高维的数据集,PCA还会找到与前两个轴正交的第三个轴,以及第四个,第五个等等-与数据集中的维数一样多的轴。 如何得到这些包含最大差异性的主成分方向呢? 通过计算数据矩阵的协方差矩阵 然后得到协方差矩阵的特征值特征向量 选择特征值最大(即方差最大)的k个特征所对应的特征向量组成的矩阵。 这样就可以将数据矩阵转换到新的空间当中,实现数据特征的降维。 ### 3. PCA(主成分分析) ## PCA的算法两种实现方法 (1) 基于SVD分解协方差矩阵实现PCA算法 (2) 基于特征值分解协方差矩阵实现PCA算法 ### 3. PCA(主成分分析)0 码力 | 51 页 | 3.14 MB | 2 年前3
机器学习课程-温州大学-05深度学习-深度学习实践## 深度学习-深度学习实践 黄海广 副教授 2023年03月 ## 本章目录 01 数据集划分 02 数据集制作 03 数据归一化/标准化 04 正则化 05 偏差和方差 ## 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集(Dev Set),用来做模型选择(model ColorJitter是随机改变颜色方法 RandomRotation是随机旋转方法。 最后将图像转换为Tensor类型并进行标准化。 可以将以上方法添加到数据集加载器中进行批量的数据增强。 ## 偏差和方差  }-\mu)^{2}\\ &\quad\mu=\frac{1}{m}\sum_{i=1}^{m}x^{(i)}\\ \end{aligned} $$ 处理后的数据均值为0,方差为1 数据标准化为了不同特征之间具备可比性,经过标准化变换之后的特征数据分布没有发生改变。 就是当数据特征取值范围或单位差异较大时,最好是做一下标准化处理。 ### 2. 特征构建 ## 定量特征二值化 聚合特征构造主要通过对多个特征的分组聚合实现,这些特征通常来自同一张表或者多张表的联立。 • 聚合特征构造使用一对多的关联来对观测值分组,然后计算统计量。 - 常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、标准差、方差和频数等。 ### 2. 特征构建 ## 转换特征构造 相对于聚合特征构造依赖于多个特征的分组统计,通常依赖于对于特征本身的变换。转换特征构造使用单一特征或多个特征进行变换后的结果作为新的特征。 6/f/6f6fb0eb1a57b4cc30fdaec2abe8c269/p18_1.jpg) 求样本协方差矩阵  对协方差矩阵进行特征值分解,将特征值从大到小排列 : 随机变量X的方差 $ \sigma_{X} $ : 随机变量X的标准差 • Cov(X,Y): 随机变量X和Y的协方差 • $ \rho(X,Y) $ : 随机变量X和Y的相关性 • $ H(X) $ : 随机变量X的熵 $ D_{\mathrm{KL}}(P\|Q) \end{aligned} $$ 也就是说,第二次测试使我们能够对患病的情况获得更高的信心。尽管第二次检验比第一次检验的准确性要低得多,但它仍然显著提高我们的预测概率。 #### 2.6.3 期望和方差 为了概括概率分布的关键特征,我们需要一些测量方法。一个随机变量X的期望(expectation,或平均值(average))表示为 $$ E[X]=\sum_{x}x P(X=x). $$0 码力 | 797 页 | 29.45 MB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版202112组不同数据点即可,似乎线性神经元模型的估计问题可以得到完美解决。那么上述方法存在什么问题呢? 考虑对于任何采样点,都有可能存在观测误差,这里假设观测误差变量 $ \epsilon $ 属于均值为 $ \mu $ ,方差为 $ \sigma^{2} $ 的正态分布(Normal Distribution,或高斯分布,Gaussian Distribution): $ \mathcal{N}(\mu,\sigma^{2}) = np.array(data) # 转换为2D Numpy数组 通过 for 循环进行 100 次采样,每次从均匀分布 $ U(-10,10) $ 中随机采样一个数据 x,同时从均值为 0,方差为 $ 0.1^{2} $ 的高斯分布 $ \mathcal{N}(0,0.1^{2}) $ 中随机采样噪声 $ \epsilon $ ,根据真实模型生成 y 的数据,并保存为 Numpy 得训练集上的均方误差损失值。代码如下: def mse(b, w, points): # 根据当前的 w,b 参数计算均方差损失 # 计算差的平方,并累加 totalError += (y - (w * x + b)) ** 2 # 将累加的误差求平均,得到均方差 return totalError / float(len(points)) 最后的误差和除以数据样本总数,从而得到每个样本上的平均误差。0 码力 | 439 页 | 29.91 MB | 2 年前3
机器学习课程-温州大学-07机器学习-决策树--|---|---| |ID3|分类|多叉树|信息增益|不支持|不支持|不支持|不支持| |C4.5|分类|多叉树|信息增益率|支持|支持|支持|不支持| |CART|分类回归|二叉树|基尼指数均方差|支持|支持|支持|支持| ### 2. ID3算法 01 决策树原理 02 ID3算法 03 C4.5算法 04 CART算法 ### 2. ID3算法 ## I D3 算法 ● CART算法 ### 4. CART算法 ## CART ● Classification and Regression Tree (CART) 是决策树的一种。 ● 用基尼指数来选择属性(分类),或用均方差来选择属性(回归)。 顾名思义,CART算法既可以用于创建分类树,也可以用于创建回归树,两者在构建的过程中稍有差异。 ● 如果目标变量是离散的,称为分类树。 ● 如果目标变量是连续的,称为回归树。 CART算法-回归 ## 用均方差来选择属性 对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。对于任意划分特征 A,对应的任意划分点 s 两边划分成的数据集 $ D_{1} $ 和 $ D_{2} $ ,求出使 $ D_{1} $ 和 $ D_{2} $ 各自集合的均方差最小,同时 $ D_{1} $ 和 $ D_{2} $ 的均方差之和最小所对应的特征和特征值划分点。表达式为:0 码力 | 39 页 | 1.84 MB | 2 年前3
对 Go 程序进行可靠的性能测试参数是所有可能的样本, 返回值是这些样本的取值, 例如 $ P(X = 2) = 0.25 $ ● 期望:随机变量以其概率为权重的加权平均值, 即 $ E(X)=\sum x_{i}p_{i} $ 方差:样本取值与期望之间的「距离」,距离定义为差的平方和,即 $ Var(X)=\sum(x_{i}-E(X))^{2} $ 概率密度函数: 是一个函数, 参数是随机变量取值, 返回值是随机变量取得该值的概率 两个总体均值差的检验 $ H_{0}:\mu_{1}-\mu_{2}=0,H_{1}:\mu_{1}-\mu_{2}\neq0 $ T 检验 参数检验,假设数据服从正态分布,且方差相同 Welch T 检验 参数检验,假设服从正态分布,方差一定不相同 Mann-Whitney U 检验 非参数检验,假设最少,最通用,只假设两组样本来自同一总体,只有均值上的差异(保守派) 当对数据的假设减少时,结论的不确定性就会增大,因此 值会相应的变大,进而使性能基准测试的条件更加严格。 ## 局限与应对措施 ## 降低系统噪音: perflock 作用是限制 CPU 时钟频率,从而一定程度上消除系统对性能测试程序的影响,减少结果的噪声,进而性能测量的结果方差更小也更加可靠,仅支持 Linux。 $ go get github.com/aclements/perflock/cmd/perflock $ sudo install $GOPATH/bin/perflock0 码力 | 37 页 | 1.23 MB | 2 年前3
机器学习课程-温州大学-01机器学习-引言导数、微分、泰勒公式..... ## 线性代数 向量、矩阵、行列式、秩、线性方程组、特征值和特征向量..... ## 概率论与数理统计 随机事件和概率、概率的基本性质和公式、常见分布、期望、协方差..... ## 高等数学-导数 导数(Derivative),也叫导函数值。又名微商,是微积分中的重要基础概念。当函数 $ y=f(x) $ 的自变量x在一点 $ x_{0} $ 上产生一个增量 P(X = k) = \frac{\lambda^{k}}{k!} e^{-\lambda}, \lambda > 0, k = 0, 1, 2 \cdots $ Poisson分布的期望和方差都等于参数 $ \lambda $ ## 概率论与数理统计-常见分布 (4) 均匀分布 $ U(a,b) $ : $ f(x)=\left\{\begin{array}{cc}\frac{1}{b-a} + C_{2}E(Y) $ (3) 若X和Y独立,则 $ E(XY)=E(X)E(Y) $ (4) $ [E(XY)]^{2} \leq E(X^{2})E(Y^{2}) $ ## 协方差 $$ Cov(X,Y)=E\left[(X-E(X)(Y-E(Y))\right] $$ 性质: (1) $ Cov(X,Y) = Cov(Y,X) $ (2) $ Cov(aX0 码力 | 78 页 | 3.69 MB | 2 年前3
共 67 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













