机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra
个元素 我们使用符号 (或 , 等)来表示第 行和第 列中的 的元素: 我们用 或者 表示矩阵 的第 列: 我们用 或者 表示矩阵 的第 行: 在许多情况下,将矩阵视为列向量或行向量的集合非常重要且方便。 通常,在向量而不是标量上 操作在数学上(和概念上)更清晰。只要明确定义了符号,用于矩阵的列或行的表示方式并没有通 用约定。 2.矩阵乘法 两个矩阵相乘,其中 and 可以表示为对称矩阵和反对称矩阵的和,所以: 上面公式的右边的第一个矩阵是对称矩阵,而第二个矩阵是反对称矩阵。 事实证明,对称矩阵在实践中 用到很多,它们有很多很好的属性,我们很快就会看到它们。 通常将大小为 的所有对称矩阵的集合表 示为 ,因此 意味着 是对称的 矩阵; 3.4 矩阵的迹 方矩阵 的迹,表示为 (或者只是 ,如果括号显然是隐含的),是矩阵中对角元素的 总和: 如CS229讲义中所述,迹具有以下属性(如下所示): 对于某些标量值 ,要么向量 是线性相关的; 否则,向量是线性无关的。 例如,向量: 是线性相关的,因为: 。 矩阵 的列秩是构成线性无关集合的 的最大列子集的大小。 由于术语的多样性,这通常简称 为 的线性无关列的数量。同样,行秩是构成线性无关集合的 的最大行数。 对于任何矩阵 ,事实证明 的列秩等于 的行秩(尽管我们不会证明这一点),因此两个量统称为 的秩,用 表示。 以下是秩的一些基本属性:0 码力 | 19 页 | 1.66 MB | 1 年前3机器学习课程-温州大学-07机器学习-决策树
定的测试属性。 ID3 算法 10 2.ID3算法 ID3 算法 其大致步骤为: 1. 初始化特征集合和数据集合; 2. 计算数据集合信息熵和所有特征的条件熵,选择信息增益最大的特征作为当 前决策节点; 3. 更新数据集合和特征集合(删除上一步使用的特征,并按照特征值来划分不 同分支的数据集合); 4. 重复 2,3 两步,若子集值包含单一特征,则为分支叶子节点。 11 ? ? = − = 非常好 = 0.36 G??? ?, ?4 = 好 = 0.47 G??? ?, ?4 = 一般 = 0.32 CART算法-分类 基尼指数 ???? ?, ? 表示经过? =a分割后集合?的不确定性。 年龄 有工作 有房子 信用 类别 0 青年 否 否 一般 否 1 青年 否 否 好 否 2 青年 是 否 好 是 3 青年 是 是 一般 是 4 青年 否 否 一般 否 用均方差来选择属性 对于连续值的处理,CART 分类树采用基尼系数的大小来度量特征的各个划分点。 对于任意划分特征 ?,对应的任意划分点? 两边划分成的数据集 ?1和?2 ,求出使 ?1和?2各自集合的均方差最小,同时 ?1和?2的均方差之和最小所对应的特征和特 征值划分点。表达式为: min?,?[min?1 ??∈?1 ( ?? − ?1)2 + min?2 ??∈?2 (0 码力 | 39 页 | 1.84 MB | 1 年前3机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob
是不会涉及到这些更复杂的细节。 1. 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素, 样本空间 :随机实验的所有结果的集合。在这里,每个结果 可以被认为是实验结束时现 实世界状态的完整描述。 事件集(事件空间) :元素 的集合(称为事件)是 的子集(即每个 是一个实 验可能结果的集合)。 备注: 需要满足以下三个条件: (1) (2) (3) 考虑投掷六面骰子的事件。样本空间为 , , , , , 。最简单的事件空间是平凡事件空间 .另一个事件空间是 的所有子集的集合。对于第一个事件空间,满足上述要求的唯一概率 度量由 , 给出。对于第二个事件空间,一个有效的概率度量是将事件空间中每个事 件的概率分配为 ,这里 是这个事件集合中元素的数量;例如 , 。 性质: 如果 ,则: (布尔不等式): (全概率定律):如果 , , 是一些互不相交的事件并且它们的并集是 来表示随机变量的值。 举例: 在我们上面的实验中,假设 是在投掷序列 中出现的正面的数量。假设投掷的硬币只有10枚,那 么 只能取有限数量的值,因此它被称为离散随机变量。这里,与随机变量 相关联的集合取某个 特定值 的概率为: 图1:一个累计分布函数(CDF) 举例: 假设 是一个随机变量,表示放射性粒子衰变所需的时间。在这种情况下, 具有无限多的可能 值,因此它被称为连续随机变量。我们将0 码力 | 12 页 | 1.17 MB | 1 年前3机器学习课程-温州大学-特征工程
都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 意义的特征 ➢ 有时能发现更有意义的特征 属性 ➢ 从特征集合中挑选一组具 有明显物理或统计意义的 特征子集 ➢ 能表示出每个特征对于模 型构建的重要性 特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建 特征提取 04 特征选择 25 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征选择(feature selection):从给 定的特征集合中选出相关特征子集的 过程。 相关特征 • 对当前学习任务有用 的属性或者特征 无关特征 • 对当前学习任务没用 的属性或者特征 原因:维数灾难问题;去除无关特征可 以降低学习任务的难度,简化模型,降 使用一个基模型来进行多轮训练,每轮 训练后,消除若干权值系数的特征,再 基于新的特征集进行下一轮训练。 2. 递归特征消除法 包裹式 4. 特征选择 原始特征集合 基模型训练 新特征子集合 特征个数是否达到预设值 输出子集合 否 是 35 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 原理:嵌入式特征选择是将特征选择与学习器训练过程融为一体,两0 码力 | 38 页 | 1.28 MB | 1 年前3机器学习课程-温州大学-10机器学习-聚类
中任两点的连线内的点都在集合 S 内,那么集合 S 称为凸集。反之,为非凸集。 29 密度聚类-DBSCAN DBSCAN密度聚类 与划分和层次聚类方法不同,DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇 定义为密度相连的点的最大集合,能够把具有足够高密度的区域划分为簇,并 7 8 9 10 11 P13 P4 P2 P1 P3 P9 P8 P5 P6 P7 P12 P11 P10 • 对每个点计算其邻域Eps=3内的 点的集合。 • 集合内点的个数超过MinPts=3的 点为核心点。 Y X 34 密度聚类-DBSCAN DBSCAN密度聚类的算法流程 13 12 11 10 9 8 7 6 5 4 3 2 10 码力 | 48 页 | 2.59 MB | 1 年前3动手学深度学习 v2.0
[x]i:向量x第i个元素 • xij, [X]ij:矩阵X第i行第j列的元素 集合论 • X: 集合 • Z: 整数集合 • R: 实数集合 • Rn: n维实数向量集合 • Ra×b: 包含a行和b列的实数矩阵集合 • A ∪ B: 集合A和B的并集 13 • A ∩ B:集合A和B的交集 • A \ B:集合A与集合B相减,B关于A的相对补集 函数和运算符 • f(·):函数 • log(·):自然对数 • exp(·): 指数函数 • 1X : 指示函数 • (·)⊤: 向量或矩阵的转置 • X−1: 矩阵的逆 • ⊙: 按元素相乘 • [·, ·]:连结 • |X|:集合的基数 • ∥ · ∥p: :Lp 正则 • ∥ · ∥: L2 正则 • ⟨x, y⟩:向量x和y的点积 • �: 连加 • �: 连乘 • def =:定义 微积分 • dy dx:y关于x的导数 通过某种性能度量方式来达到完成任务的最佳性能。 那么到底什么是参数呢?参数可以被看作旋钮,旋钮的转动可以调整程序的行为。任一调整参数后的程序被 称为模型(model)。通过操作参数而生成的所有不同程序(输入‐输出映射)的集合称为“模型族”。使用数 据集来选择参数的元程序被称为学习算法(learning algorithm)。 在开始用机器学习算法解决问题之前,我们必须精确地定义问题,确定输入(input)和输出(output)的性0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{0 码力 | 78 页 | 3.69 MB | 1 年前3机器学习课程-温州大学-12机器学习-关联规则
Apriori算法 算法流程 输入:数据集合D,支持度阈值? 输出:最大的频繁k项集 1)扫描整个数据集,得到所有出现过的数据,作为候选频繁1项集。k=1,频繁0项集为空集。 2)挖掘频繁k项集 a) 扫描数据计算候选频繁k项集的支持度 b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集 为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束。如果得到的频繁k项集 频繁k项集 只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束。 c) 基于频繁k项集,连接生成候选频繁k+1项集。 3) 令k=k+1,转入步骤2。 12 2.Apriori算法 算法案例 第一次迭代:假设支持度阈值为2,创建大小为1的项集并计算它们的支持度。 订单编号 项目 T1 1 3 4 T2 2 3 5 T3 1 2 3 5 T4 3 4 T2 2 3 5 T3 1 2 3 5 T4 2 5 T5 1 3 5 18 2.Apriori算法 算法案例 第四次迭代:使用F3的集合,我们将创建C4。 F3 项集 支持度 {1,3,5} 2 {2,3,5} 2 C4 项集 支持度 {1,2,3,5} 1 订单编号 项目 T1 1 3 4 T2 20 码力 | 49 页 | 1.41 MB | 1 年前3机器学习课程-温州大学-01深度学习-引言
⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 里面的元素的值不能修改,只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{0 码力 | 80 页 | 5.38 MB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
估计偏差。如图 2.4 所示,图中的数据点均带有观测误差,如果基于蓝色矩形块的两个数 据点进行估计,则计算出的蓝色虚线与真实橙色直线存在较大的偏差。为了减少观测误差 引入的估计偏差,通常可以通过采样多组数据样本集合? = {(?(1), ?(1)),(?(2),?(2)),… , (?(?), ?(?))},然后找出一条“最好”的直线,使得它尽可能地 让所有采样点到该直线的误差(Error,或损失 Loss)之和最小。 ”,从 而一步步降低误差ℒ。最简单的优化方法就是暴力搜索或随机试验,比如要找出最合适的 ?∗和?∗,就可以从(部分)实数空间中随机采样?和?,并计算出?和?对应模型的误差值ℒ, 然后从测试过的{ℒ}集合中挑出最好的ℒ∗,它所对应的?和?就可以近似作为最优?∗和?∗。 这种算法固然简单直接,但是面对大规模、高维度数据的优化问题时计算效率极低, 基本不可行。梯度下降算法(Gradient Des 2, 3.4 等,维度(Dimension)数为 0,shape 为[]。 ❑ 向量(Vector)。?个实数的有序集合,通过单个中括号表示,如[1.2],[1.2,3.4]等,维 度数为 1,长度不定,shape 为[?]。 ❑ 矩阵(Matrix)。?行?列实数的有序集合,如[[1,2],[3,4]],也可以写成 [1 2 3 4] 形式。维度数为 2,每个维度上的长度不定,shape0 码力 | 439 页 | 29.91 MB | 1 年前3
共 20 条
- 1
- 2