特征 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-特征工程

1 2021年09月机器学习-特征工程黄海广副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 2019,36(01) 文献解读定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择特征工程相关概念 1. 相关概念 5 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目特征提取特征选择共同点都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别 ➢ 强调通过特征转换的方式得到一组具有明显物理或统计意义的特征 ➢ 有时能发现更有意义的特征属性 ➢ 从特征集合中挑选一组具有明显物理或统计意义的特征子集 ➢ 能表示出每个特征对于模型构建的重要性

0 码力 | 38 页 | 1.28 MB | 1 年前
3
2020美团技术年货算法篇

干预，才会将最适合用户（指标）的结果展示在大家的眼前。为了保证良好的用户体验，技术团队对模型预估能力的要求变得越来越高，同时模型与特征的类型、数量及复杂度也在与日俱增。算法团队如何尽量少地开发和部署上算法 < 3 线，如何快速进行模型特征的迭代？如何确保良好的预估性能？在线预估框架 Augur 应运而生。经过一段时间的实践，Augur 也有效地满足了算法侧的需求，并成为美团搜索与值（即模型预估的值）对原有的文档进行排序或者其他处理。纯粹从一个工程人员视角来看：模型可以简化为一个公式（举例：f(x1,x2)= ax1 + bx2 +c ），训练模型是找出最合适的参数 abc。所谓特征，是其中的自变量 x1 与 x2，而模型预估，就是将给定的自变量 x1 与 x2 代入公式，求得一个解而已。（当然实际模型输出的结果可能会更加复杂，包括输出矩阵、向量等等，这里只是简单的举例说明。）模型打分服务，都可以进行高性能的 Batch 打分。基于此，我们针对不同的模型，采取不同的策略： ● 深度学习模型：特征多，计算复杂，性能要求高；我们将计算过程放到公司统一提供的 TF-Serving/MLX 预估服务上； ● 线性模型、树模型：搜索场景下使用的特征相对较少，计算逻辑也相对简单，我们将在构建的预估框架内部再构建起高性能的本机求解逻辑，从而减少 RPC。这一套逻

0 码力 | 317 页 | 16.57 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述维数灾难维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中，通常指的是随着特征数量的增多，计算量会变得很大，如特征达到上亿维的话，在进行计算的时候是算不出来来的。有的时候，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征的增加先上升后下降。 6 1.降维概述什么是降维？降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间，该过程与信息论中有损压缩概念密切相关。同时要明白的，不存在完全无损的降维。有很多种算法可以完成对原始数据的降维，在这些方法中，降维降维概述 1.减少冗余特征，降低数据维度 2.数据可视化降维的主要作用 9 1.降维概述减少冗余特征假设我们有两个特征： ?1:长度用厘米表示的身高；?2：是用英寸表示的身高。这两个分开的特征?1和?2，实际上表示的内容相同，这样其实可以减少数据到一维，只有一个特征表示身高就够了。很多特征具有线性关系，具有线性关系的特征很多都是冗余的特征，去掉冗余特征对机器学习的计算结果不会有影响。

0 码力 | 51 页 | 3.14 MB | 1 年前
3
2022年美团技术年货合辑

度与速度的平衡，我们基于硬件感知神经网络设计思想，为 YOLOv6 设计了一个更有效的特征融合网络结构。 Rep-PAN 基于 PAN[6] 拓扑方式，用 RepBlock 替换了 YOLOv5 中使用的 CSP- Block，同时对整体 Neck 中的算子进行了调整，目的是在硬件上达到高效推理的同时，保持较好的多尺度特征融合能力（Rep-PAN 结构图如下图 5 所示）。算法 < 7 图 5 进行单 batch 推理，速度提升 71.3%。 4. 总结与展望本文介绍了美团视觉智能部在目标检测框架方面的优化及实践经验，我们针对 YOLO 系列框架，在训练策略、主干网络、多尺度特征融合、检测头等方面进行了思考和优化，设计了新的检测框架 -YOLOv6，初衷来自于解决工业应用落地时所遇到的实际问题。在打造 YOLOv6 框架的同时，我们探索和优化了一些新的方法，例如基于硬件感模型（YOLOv6s_repvgg）各层的权重及激活数值分布，分析了 YOLOv6 中的重参数化层的数据分布。下图 2 以 “Rep_p4.block.0.rbr_reparam” 层为例，给出其特征图数值分布直方图，我们发现其数值广泛分布在 [0, 57] 的区间内。显然，采用现有的 INT8 量化方法，无论怎样选择量化缩放参数（scale），都会产生较大的量化误差。图 2 YOLOv6

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4.矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化线性代数复习和参考 1. 基础概念和符号线性代数提供了一种紧凑地表示和操作线性方程组的方法。是满秩），则是正定的。 3.12 特征值和特征向量给定一个方阵，我们认为在以下条件下，是的特征值，是相应的特征向量：直观地说，这个定义意味着将乘以向量会得到一个新的向量，该向量指向与相同的方向，但按系数缩放。值得注意的是，对于任何特征向量和标量，，也是一个特征向量。因此，当我们讨论与相关的特征向量时，我们通常假设特征向量被标准化为长度为1（这仍然会造成一些歧义，因为为1（这仍然会造成一些歧义，因为和都是特征向量，但我们必须接受这一点）。我们可以重写上面的等式来说明是的特征值和特征向量的组合：但是只有当有一个非空零空间时，同时是奇异的，才具有非零解，即：现在，我们可以使用行列式的先前定义将表达式扩展为中的（非常大的）多项式，其中，的度为。它通常被称为矩阵的特征多项式。然后我们找到这个特征多项式的（可能是复数）根，并用表示。这些都是矩阵

0 码力 | 19 页 | 1.66 MB | 1 年前
3
美团点评2018技术年货

下明显特征： 1. 时效性，只在一定时间范围内显示在C端固定位置。 2. 城市强相关，这类运营资源往往是基于LBS类服务，每个活动、广告都只会出现在固定的某些城市（或区域）。基础配置基础配置基础配置，常见的有入口资源的配置、网络的配置等。相对运营资源来说，其变更的频繁度相对较低，与时间、城市的关系也没那么强。譬如下面大众点评App-我的页面里的入口。这类配置有如下几个特征： 1 具体化，导致无法支持更多普适性的业务场景。从分流的本质出发，即根据请求特征完成流量的定制化路由。结合Nginx if指令的几个组成部分：条件判断依赖的变量、条件判断要匹配的value、条件表达式、匹配后要执行的proxy_pass，一个策略必须要包含请求特征描述、定制化路由描述以及两者的关系描述。其中请求特征描述包含特征关键字、关键字的上下文传输方式，定制化路由描述通过Upstream表示，义是如何表述业务场景的： Oceanus：美团HTTP流量定制化路由的实践 - 美团技术团队备注：应用apk1和apk2分别配置2个私有策略，apk3使用公共策略。如上图所示，无论业务根据请求的哪些特征进行分流，策略结构均可以支持。以私有策略gray-deploy为例，在Oceanus管理平台进行添加，如下图所示：备注：这里省略了策略的非核心字段比如switch、graylist等。如何实现策略的高效查询？

0 码力 | 229 页 | 61.61 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 6 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 • 基于性能指标比较几种机在测试集上评估最佳模型 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗什么是数据清洗？数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。 •目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用于建模决策，例如使用哪些特征。 •简而言之，EDA的目标是确定我们的数据可以告诉我们什么！探索性数据分析(EDA) 11 探索性数据分析(EDA) 单变量图显示此变量的分布 plt.hist()可以显示单变量图，也叫

0 码力 | 26 页 | 1.53 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

决策树属于判别模型。 ⚫ 决策树是一种树状结构，通过做出一系列决策（选择）来对数据进行划分，这类似于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始，测试待分类项中对应的特征属性，并按照其值选择输出分支，直到叶子节点，将叶子节点的存放的类别作为决策结果。根节点 (root node) 叶节点 (leaf node) 5 1.决策树原理根节点 (root 容易造成过拟合，需要采用剪枝操作。 ⚫ 忽略了数据之间的相关性。 ⚫ 对于各类别样本数量不一致的数据，信息增益会偏向于那些更多数值的特征。决策树的特点 7 算法支持模型树结构特征选择连续值处理缺失值处理剪枝特征属性多次使用 ID3 分类多叉树信息增益不支持不支持不支持不支持 C4.5 分类多叉树信息增益率支持支持支持不支持 CART 分类回归二叉树基尼指数 10 2.ID3算法 ID3 算法其大致步骤为： 1. 初始化特征集合和数据集合； 2. 计算数据集合信息熵和所有特征的条件熵，选择信息增益最大的特征作为当前决策节点； 3. 更新数据集合和特征集合（删除上一步使用的特征，并按照特征值来划分不同分支的数据集合）； 4. 重复 2，3 两步，若子集值包含单一特征，则为分支叶子节点。 11 ? ? = − ෍ ?=1 ? ?

0 码力 | 39 页 | 1.84 MB | 1 年前
3
机器学习课程-温州大学-线性代数回顾

2 目录 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 3 1.行列式 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 4 (1) 设? = ??? ?×?，则：??1??1 + ??2??2 + ⋯ −1 == ς1≤?特征值，则 |?| = ς?=1 ? ?? 6 2.矩阵 01 行列式 02 矩阵 03 向量 06 二次型 05 矩阵的特征值和特征向量 04 线性方程组 7 ? × ?个数???排成?行?列的表格 ?11 ?12 ⋯ ?1? ?21 0, ?(?) < ? − 1 2.矩阵 11 6.有关?−?的结论 ?可逆⇔ ?? = ?; ⇔ |?| ≠ 0; ⇔ ?(?) = ?; ⇔ ?可以表示为初等矩阵的乘积； ⇔ ?无零特征值； ⇔ Ax = 0 只有零解。 2.矩阵 12 7.有关矩阵秩的结论 (1) 秩?(?)=行秩=列秩； (2) ?(??×?) ≤ min(?, ?); (3) ? ≠ 0 ⇒ ?(

0 码力 | 39 页 | 856.89 KB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

务。传统的机器学习算法一般会人为设计具有一定通用性的特征检测方法，如 SIFT、HOG 特征，这些特征能够适合某一类的任务，具有一定的通用性，但是如何设计特征，以及特征方法的优劣性非常的关键，同时也比较困难。神经网络的出现，使得人为设计特征这一部分工作可以让机器自动完成学习，不需要人类干预。但是浅层的神经网络的特征提取能力较为有限，而深层的神经网络擅长提取高层、抽象的特征，因此具有更好的性能表现。针对特定任务针对特定任务的检测逻辑输出逻辑人为设计的特征检测方法输出逻辑特征提取网络 (浅层) 输出子网络底层特征提取网络中层特征提取网络高层特征提取网络输出子网络基于规则的系统传统机器学习浅层神经网络深度学习图 1.3 深度学习与其它算法比较 1.2 神经网络发展简史本书将神经网络的发展历程大致分为浅层神经网络阶段和深度学习两个阶段，以征，以帮助算法更好地收敛到最优解。这类特征提取方法通常是与某些具体任务场景强相关的，一旦场景发生了变动，这些依靠人工设计的特征和先验设定无法自适应新场景，因此需要重新设计算法模型，模型的通用性不强。设计一种像人脑一样可以自动学习、自我调整的通用智能机制一直是人类的共同愿景。从目前来看，深度学习是最接近通用智能的算法之一。在计算机视觉领域，过去需要针对具体的任务设计特征、添加先验假设的做法，已经被深度学习算法彻底抛弃了，目前

0 码力 | 439 页 | 29.91 MB | 1 年前
3

共 398 条前往

页

分类

语言

格式