懒集合 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

个元素我们使用符号（或 , 等）来表示第行和第列中的的元素：我们用或者表示矩阵的第列：我们用或者表示矩阵的第行：在许多情况下，将矩阵视为列向量或行向量的集合非常重要且方便。通常，在向量而不是标量上操作在数学上（和概念上）更清晰。只要明确定义了符号，用于矩阵的列或行的表示方式并没有通用约定。 2.矩阵乘法两个矩阵相乘，其中 and 可以表示为对称矩阵和反对称矩阵的和，所以：上面公式的右边的第一个矩阵是对称矩阵，而第二个矩阵是反对称矩阵。事实证明，对称矩阵在实践中用到很多，它们有很多很好的属性，我们很快就会看到它们。通常将大小为的所有对称矩阵的集合表示为，因此意味着是对称的矩阵; 3.4 矩阵的迹方矩阵的迹，表示为（或者只是，如果括号显然是隐含的），是矩阵中对角元素的总和：如CS229讲义中所述，迹具有以下属性（如下所示）：对于某些标量值，要么向量是线性相关的; 否则，向量是线性无关的。例如，向量：是线性相关的，因为：。矩阵的列秩是构成线性无关集合的的最大列子集的大小。由于术语的多样性，这通常简称为的线性无关列的数量。同样，行秩是构成线性无关集合的的最大行数。对于任何矩阵，事实证明的列秩等于的行秩（尽管我们不会证明这一点），因此两个量统称为的秩，用表示。以下是秩的一些基本属性：

0 码力 | 19 页 | 1.66 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

定的测试属性。 ID3 算法 10 2.ID3算法 ID3 算法其大致步骤为： 1. 初始化特征集合和数据集合； 2. 计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点； 3. 更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）； 4. 重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。 11 ? ? = − = 非常好 = 0.36 G??? ?, ?4 = 好 = 0.47 G??? ?, ?4 = 一般 = 0.32 CART算法-分类基尼指数 ???? ?, ? 表示经过? =a分割后集合?的不确定性。年龄有工作有房子信用类别 0 青年否否一般否 1 青年否否好否 2 青年是否好是 3 青年是是一般是 4 青年否否一般否用均方差来选择属性对于连续值的处理，CART 分类树采用基尼系数的大小来度量特征的各个划分点。对于任意划分特征 ?，对应的任意划分点? 两边划分成的数据集 ?1和?2 ，求出使 ?1和?2各自集合的均方差最小，同时 ?1和?2的均方差之和最小所对应的特征和特征值划分点。表达式为： min?,?[min?1 ෍ ??∈?1 ( ?? − ?1)2 + min?2 ෍ ??∈?2 (

0 码力 | 39 页 | 1.84 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

是不会涉及到这些更复杂的细节。 1. 概率的基本要素为了定义集合上的概率，我们需要一些基本元素，样本空间：随机实验的所有结果的集合。在这里，每个结果可以被认为是实验结束时现实世界状态的完整描述。事件集（事件空间）：元素的集合（称为事件）是的子集（即每个是一个实验可能结果的集合）。备注：需要满足以下三个条件： (1) (2) (3) 考虑投掷六面骰子的事件。样本空间为，，，，，。最简单的事件空间是平凡事件空间 .另一个事件空间是的所有子集的集合。对于第一个事件空间，满足上述要求的唯一概率度量由，给出。对于第二个事件空间，一个有效的概率度量是将事件空间中每个事件的概率分配为，这里是这个事件集合中元素的数量；例如，。性质：如果，则： (布尔不等式)： (全概率定律)：如果，，是一些互不相交的事件并且它们的并集是来表示随机变量的值。举例：在我们上面的实验中，假设是在投掷序列中出现的正面的数量。假设投掷的硬币只有10枚，那么只能取有限数量的值，因此它被称为离散随机变量。这里，与随机变量相关联的集合取某个特定值的概率为：图1：一个累计分布函数(CDF) 举例：假设是一个随机变量，表示放射性粒子衰变所需的时间。在这种情况下，具有无限多的可能值，因此它被称为连续随机变量。我们将

0 码力 | 12 页 | 1.17 MB | 1 年前
3
机器学习课程-温州大学-特征工程

都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别 ➢ 强调通过特征转换的方式得到一组具有明显物理或统计意义的特征 ➢ 有时能发现更有意义的特征属性 ➢ 从特征集合中挑选一组具有明显物理或统计意义的特征子集 ➢ 能表示出每个特征对于模型构建的重要性特征提取VS特征选择 1. 相关概念 7 2. 特征构建 01 相关概念 02 特征构建特征提取 04 特征选择 25 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征选择(feature selection)：从给定的特征集合中选出相关特征子集的过程。相关特征 • 对当前学习任务有用的属性或者特征无关特征 • 对当前学习任务没用的属性或者特征原因：维数灾难问题；去除无关特征可以降低学习任务的难度，简化模型，降使用一个基模型来进行多轮训练，每轮训练后，消除若干权值系数的特征，再基于新的特征集进行下一轮训练。 2. 递归特征消除法包裹式 4. 特征选择原始特征集合基模型训练新特征子集合特征个数是否达到预设值输出子集合否是 35 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 原理：嵌入式特征选择是将特征选择与学习器训练过程融为一体，两

0 码力 | 38 页 | 1.28 MB | 1 年前
3
机器学习课程-温州大学-10机器学习-聚类

中任两点的连线内的点都在集合 S 内，那么集合 S 称为凸集。反之，为非凸集。 29 密度聚类-DBSCAN DBSCAN密度聚类与划分和层次聚类方法不同，DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一个比较有代表性的基于密度的聚类算法。它将簇定义为密度相连的点的最大集合，能够把具有足够高密度的区域划分为簇，并 7 8 9 10 11 P13 P4 P2 P1 P3 P9 P8 P5 P6 P7 P12 P11 P10 • 对每个点计算其邻域Eps=3内的点的集合。 • 集合内点的个数超过MinPts=3的点为核心点。 Y X 34 密度聚类-DBSCAN DBSCAN密度聚类的算法流程 13 12 11 10 9 8 7 6 5 4 3 2 1

0 码力 | 48 页 | 2.59 MB | 1 年前
3
动手学深度学习 v2.0

[x]i：向量x第i个元素 • xij, [X]ij：矩阵X第i行第j列的元素集合论 • X: 集合 • Z: 整数集合 • R: 实数集合 • Rn: n维实数向量集合 • Ra×b: 包含a行和b列的实数矩阵集合 • A ∪ B: 集合A和B的并集 13 • A ∩ B：集合A和B的交集 • A \ B：集合A与集合B相减，B关于A的相对补集函数和运算符 • f(·)：函数 • log(·)：自然对数 • exp(·): 指数函数 • 1X : 指示函数 • (·)⊤: 向量或矩阵的转置 • X−1: 矩阵的逆 • ⊙: 按元素相乘 • [·, ·]：连结 • |X|：集合的基数 • ∥ · ∥p: ：Lp 正则 • ∥ · ∥: L2 正则 • ⟨x, y⟩：向量x和y的点积 • �: 连加 • �: 连乘 • def =：定义微积分 • dy dx：y关于x的导数通过某种性能度量方式来达到完成任务的最佳性能。那么到底什么是参数呢？参数可以被看作旋钮，旋钮的转动可以调整程序的行为。任一调整参数后的程序被称为模型（model）。通过操作参数而生成的所有不同程序（输入‐输出映射）的集合称为“模型族”。使用数据集来选择参数的元程序被称为学习算法（learning algorithm）。在开始用机器学习算法解决问题之前，我们必须精确地定义问题，确定输入（input）和输出（output）的性

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

⚫元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值可以修改，而元组里面的元素的值不能修改，只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能，一个功能是进行集合操作，另一个功能是消除重复元素。集合的格式是：set( )，其中()内可以是列表、字典或字符串，因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组，用大括号{

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-12机器学习-关联规则

Apriori算法算法流程输入：数据集合D，支持度阈值? 输出：最大的频繁k项集 1）扫描整个数据集，得到所有出现过的数据，作为候选频繁1项集。k=1，频繁0项集为空集。 2）挖掘频繁k项集 a) 扫描数据计算候选频繁k项集的支持度 b) 去除候选频繁k项集中支持度低于阈值的数据集,得到频繁k项集。如果得到的频繁k项集为空，则直接返回频繁k-1项集的集合作为算法结果，算法结束。如果得到的频繁k项集频繁k项集只有一项，则直接返回频繁k项集的集合作为算法结果，算法结束。 c) 基于频繁k项集，连接生成候选频繁k+1项集。 3）令k=k+1，转入步骤2。 12 2.Apriori算法算法案例第一次迭代：假设支持度阈值为2，创建大小为1的项集并计算它们的支持度。订单编号项目 T1 1 3 4 T2 2 3 5 T3 1 2 3 5 T4 3 4 T2 2 3 5 T3 1 2 3 5 T4 2 5 T5 1 3 5 18 2.Apriori算法算法案例第四次迭代：使用F3的集合，我们将创建C4。 F3 项集支持度 {1,3,5} 2 {2,3,5} 2 C4 项集支持度 {1,2,3,5} 1 订单编号项目 T1 1 3 4 T2 2

0 码力 | 49 页 | 1.41 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

⚫元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值可以修改，而元组里面的元素的值不能修改，只能读取。元组的符号是( ) ⚫集合(set) 集合主要有两个功能，一个功能是进行集合操作，另一个功能是消除重复元素。集合的格式是：set( )，其中()内可以是列表、字典或字符串，因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组，用大括号{

0 码力 | 80 页 | 5.38 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

估计偏差。如图 2.4 所示，图中的数据点均带有观测误差，如果基于蓝色矩形块的两个数据点进行估计，则计算出的蓝色虚线与真实橙色直线存在较大的偏差。为了减少观测误差引入的估计偏差，通常可以通过采样多组数据样本集合? = {(?(1), ?(1)),(?(2),?(2)),… , (?(?), ?(?))}，然后找出一条“最好”的直线，使得它尽可能地让所有采样点到该直线的误差(Error，或损失 Loss)之和最小。 ”，从而一步步降低误差ℒ。最简单的优化方法就是暴力搜索或随机试验，比如要找出最合适的 ?∗和?∗，就可以从(部分)实数空间中随机采样?和?，并计算出?和?对应模型的误差值ℒ，然后从测试过的{ℒ}集合中挑出最好的ℒ∗，它所对应的?和?就可以近似作为最优?∗和?∗。这种算法固然简单直接，但是面对大规模、高维度数据的优化问题时计算效率极低，基本不可行。梯度下降算法(Gradient Des 2, 3.4 等，维度(Dimension)数为 0，shape 为[]。 ❑ 向量(Vector)。?个实数的有序集合，通过单个中括号表示，如[1.2]，[1.2,3.4]等，维度数为 1，长度不定，shape 为[?]。 ❑ 矩阵(Matrix)。?行?列实数的有序集合，如[[1,2],[3,4]]，也可以写成 [1 2 3 4] 形式。维度数为 2，每个维度上的长度不定，shape

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 20 条前往

页

机器学习课程温州大学 02 数学基础回顾 CS229 LinearAlgebra 07 决策决策树 Prob 特征工程 10 聚类动手深度 v2 01 引言 12 关联规则 PyTorch 深度学习

分类

语言

格式