机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4. 矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 ## 线性代数复习和参考 ### 1. 基础概念和符号 \geq n $ (同时为了方便起见,我们假设A是满秩),则 $ G = A^{T} A $ 是正定的。 ### 3.12 特征值和特征向量 给定一个方阵 $ A \in R^{n \times n} $ ,我们认为在以下条件下, $ \lambda \in C $ 是A的特征值, $ x \in C^{n} $ 是相应的特征向量: $$ Ax=\lambda x,x\neq0 $$ 直观地说 相关的特征向量时,我们通常假设特征向量被标准化为长度为1(这仍然会造成一些歧义,因为x和-x都是特征向量,但我们必须接受这一点)。 我们可以重写上面的等式来说明 $ (\lambda,x) $ 是A的特征值和特征向量的组合: $$ (\lambda I-A)x=0,x\neq0 $$ 但是 $ (\lambda I - A)x = 0 $ 只有当 $ (\lambda I - A) $ 有一个非空零空间时,同时0 码力 | 19 页 | 1.66 MB | 2 年前3
机器学习课程-温州大学-11机器学习-降维方阵 $ AA^{T} $ 为 $ m \times m $ 的一个方阵,那么我们就可以进行特征分解,得到的特征值和特征向量满足下式: $$ (A A^{\mathrm{T}})u_{i}=\lambda_{i}u_{i} $$ 可以得到矩阵 $ AA^{T} $ 的m个特征值和对应的m个特征向量u了。 ### 2. SVD(奇异值分解) ## SVD求解 U矩阵求解 将 $ AA^{T} $ 是方阵,那么我们就可以进行特征分解,得到的特征值和特征向量满足下式: $$ (\boldsymbol{A}^{\mathrm{T}}\boldsymbol{A})v_{i}=\lambda_{i}v_{i} $$ ### 2. SVD(奇异值分解) ### 2. V矩阵求解 这样我们就可以得到矩阵 $ A^{T}A $ 的n个特征值和对应的n个特征向量v了。将 $ A^{T}A $ ## Σ 矩阵求解 进一步我们还可以看出我们的特征值矩阵等于奇异值矩阵的平方,也就是说特征值和奇异值满足如下关系: $ \sigma_{i}=\sqrt{\lambda_{i}} $ 这样也就是说,我们可以不用 $ \sigma_{i}=\frac{Av_{i}}{u_{i}} $ 来计算奇异值,也可以通过求出 $ A^{T}A $ 的特征值取平方根来求奇异值。 ### 2. SVD(奇异值分解)0 码力 | 51 页 | 3.14 MB | 2 年前3
机器学习课程-温州大学-线性代数回顾2021年07月 ## 目录 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 ### 1. 行列式按行(列)展开定理 (1) 设 x_{j}) $ 设A是n阶方阵, $ \lambda_{i}(i=1,2\cdots,n) $ 是A的n个特征值,则 $ |A|=\prod_{i=1}^{n}\lambda_{i} $ ### 2. 矩阵 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 2. 矩阵 矩阵 $ m \times n $ 个数 $ a_{ij} AB=E;\Leftrightarrow|A|\neq0;\Leftrightarrow r(A)=n; $ \Leftrightarrow A 可以表示为初等矩阵的乘积; \Leftrightarrow A无零特征值; \Leftrightarrow Ax = 0 只有零解。 ### 2. 矩阵 ### 7. 有关矩阵秩的结论 (1) 秩 $ r(A)= $ 行秩=列秩; (2) $ r(A_{m \times0 码力 | 39 页 | 856.89 KB | 2 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)k_{1},k_{2},\cdots,k_{t} $ 是任意常数。 ## 矩阵的特征值和特征向量 ### 1. 矩阵的特征值和特征向量的概念及性质 (1)设 $ \lambda $ 是A的一个特征值,则 $ kA,aA+bE,A^{2},A^{m},f(A),A^{T},A^{-1},A^{*} $ 有一个特征值分别为 $ k\lambda,a\lambda+b,\lambda^{2},\lambda^{m} \lambda_{2},\cdots,\lambda_{n} $ 为A的n个特征值,则 $ \sum_{i=1}^{n}\lambda_{i}=\sum_{i=1}^{n}a_{ii},\prod_{i=1}^{n}\lambda_{i}=|A| $ ,从而 $ |A|\neq0\Leftrightarrow A $ 没有特征值。 (3) 设 $ \lambda_{1}, \lambda_{2}, \cdots, \lambda_{s} $ 为 A 的 s 个特征值,对应特征向量为 $ \alpha_{1}, \alpha_{2}, \cdots, \alpha_{s} $ $$ \alpha=k_{1}\alpha_{1}+k_{2}\alpha_{2}+\cdots+k_{s}\alpha_{s} $$ 则: $ A^{n}\alpha=k_{1}A^{n}\alpha_0 码力 | 31 页 | 1.18 MB | 2 年前3
美团点评2018技术年货[Image](/uploads/documents/3/5/e/a/35ea1e7659ba76c4ea2f0c80ce7a723a/p201_1.jpg) 机器学习模型或算法(Model/Algorithm)会根据观察到的特征值(Feature)进行预测,给出预测结果或者目标(Prediction/Target)。这就像是一个函数计算过程,对于特定X值(Feature),算法模型就像是函数,最终的预测结果是Y值。不难理解, [Image](/uploads/documents/3/5/e/a/35ea1e7659ba76c4ea2f0c80ce7a723a/p203_2.jpg) ## 推导阶段 推导阶段如下图所示: 在这个阶段机器学习模型只能拿到特征值X,而没有目标值。这就像工作中,人们只是在解决一个个的问题,但不知道正确的结果到底是什么。 在推导阶段,机器学习的目标就是预测,给出目标值。 ; 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 ## 信息熵 信息熵 $$ H(D)=-\sum_{k=1}^{K}\frac{\left| 和 $ D_{2} $ ,求出使 $ D_{1} $ 和 $ D_{2} $ 各自集合的均方差最小,同时 $ D_{1} $ 和 $ D_{2} $ 的均方差之和最小所对应的特征和特征值划分点。表达式为: $$ \min_{a,s}[\min_{c_{1}}\sum_{x_{i}\in D_{1}}(y_{i}-c_{1})^{2}+\min_{c_{2}}\sum_{x_{i}\in b1ddd11e1caa/p36_1.jpg) ## 决策树差异总结 - 划分标准的差异:ID3 使用信息增益偏向特征值多的特征,C4.5 使用信息增益率克服信息增益的缺点,偏向于特征值小的特征,CART 使用基尼指数克服 C4.5 需要求 log 的巨大计算量,偏向于特征值较多的特征。 使用场景的差异:ID3 和 C4.5 都只能用于分类问题,CART 可以用于分类和回归问题;ID3 和 C40 码力 | 39 页 | 1.84 MB | 2 年前3
PaddleDTX 1.0.0 中文文档• 山鸢尾 (Iris-setosa) • 变色鸢尾 (Iris-versicolor) • 维吉尼亚鸢尾 (Iris-virginica) 在每一条样本数据中包含了四项特征值和一个标签值,标签值为鸢尾花的种类,特征值包括: • 花瓣长度 (Petal length) • 花瓣宽度 (Petal width) • 花萼长度 (Sepal length) • 花萼宽度 (Sepal width) heta\mathrm{n}\mathrm{X}\mathrm{n} $$ 其中,目标特征值由 n 个变量乘以对应系数再加上常数项计算得到。学习过程就是通过迭代找到合适的系数,使得模型在训练集合的误差尽量小。 ##### 12.2.2 1.2 多元逻辑回归 不同于多元线性回归,多元逻辑回归的目标特征值是离散的,通常定义为 $ \{1,0\} $ ,分别表示目标特征是否为指定值。如利用鸢尾0 码力 | 57 页 | 624.94 KB | 2 年前3
PaddleDTX 1.0.0 中文文档• 山鸢尾 (Iris-setosa) • 变色鸢尾 (Iris-versicolor) • 维吉尼亚鸢尾 (Iris-virginica) 在每一条样本数据中包含了四项特征值和一个标签值,标签值为鸢尾花的种类,特征值包括: • 花瓣长度 (Petal length) • 花瓣宽度 (Petal width) • 花萼长度 (Sepal length) • 花萼宽度 (Sepal width) ta}_{\mathrm{n}}\mathbf{X}_{\mathrm{n}} $$ 其中,目标特征值由n个变量乘以对应系数再加上常数项计算得到。学习过程就是通过迭代找到合适的系数,使得模型在训练集合的误差尽量小。 ### 1.2 多元逻辑回归 不同于多元线性回归,多元逻辑回归的目标特征值是离散的,通常定义为 $ \{1,0\} $ ,分别表示目标特征是否为指定值。如利用鸢尾花卉数据集,可0 码力 | 53 页 | 1.36 MB | 2 年前3
机器学习课程-温州大学-特征工程eb1a57b4cc30fdaec2abe8c269/p18_2.jpg) 对协方差矩阵进行特征值分解,将特征值从大到小排列  取特征值前 n 个最大的对应的,这样将原来 m 维的样本降低到 n 维 ### 3. 特征提取 ## 降维0 码力 | 38 页 | 1.28 MB | 2 年前3
PaddleDTX 1.1.0 中文文档• 山鸢尾 (Iris-setosa) • 变色鸢尾 (Iris-versicolor) • 维吉尼亚鸢尾 (Iris-virginica) 在每一条样本数据中包含了四项特征值和一个标签值,标签值为鸢尾花的种类,特征值包括: • 花瓣长度 (Petal length) • 花瓣宽度 (Petal width) • 花萼长度 (Sepal length) • 花萼宽度 (Sepal width) ta}_{\mathrm{n}}\mathbf{X}_{\mathrm{n}} $$ 其中,目标特征值由n个变量乘以对应系数再加上常数项计算得到。学习过程就是通过迭代找到合适的系数,使得模型在训练集合的误差尽量小。 ### 1.2 多元逻辑回归 不同于多元线性回归,多元逻辑回归的目标特征值是离散的,通常定义为 $ \{1,0\} $ ,分别表示目标特征是否为指定值。如利用鸢尾花卉数据集,可0 码力 | 57 页 | 1.38 MB | 2 年前3
共 23 条
- 1
- 2
- 3













