机器学习课程-温州大学-特征工程1 2021年09月 机器学习-特征工程 黄海广 副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 定级数后,都有相近的高准确 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 Learning. Stanford University 2. 《统计学习方法》,清华大学出版社,李航著,2019年出版 3. 《机器学习》,清华大学出版社,周志华著,2016年出版 4. 《特征工程及 XGBoost模型》,武汉理工大学课件 38 谢 谢!0 码力 | 38 页 | 1.28 MB | 1 年前3
深度学习在百度搜索中的工程实践-百度-曹皓0 码力 | 40 页 | 29.46 MB | 1 年前3
机器学习课程-温州大学-机器学习项目流程02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 6 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 • 基于性能指标比较几种机 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 量直方图之间的散点图。 18 3.特征工程 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 19 3.特征工程 特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对 变量进行变换,例如自然对数和平方根,或者对分类变量进行one-hot编码 ,以便它们可以在模型中使用。 一般来说,我认为特征工程是从原始数据 创建附加特征。0 码力 | 26 页 | 1.53 MB | 1 年前3
阿里云上深度学习建模实践-程孟力• 优势: 效果 显著超越 传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景 沙漠 湖泊 旅行 深度学习应用主要的挑战: 2.模型效果优 化困难 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂 从FM到DeepFM rt 增 加了10倍怎么优化? 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据 深度学习应用主要的挑战: 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 手里面只有5张图片, 怎么搞出来一个效果还 不错的模型? ✗ 标注速度慢 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案 3.工程优化复 杂 4.数据获取困 难 挑战 深度模型是非线性的黑盒: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 从FM到DeepFM rt 增 加了10倍怎么优化? 手里面只有5张图片,0 码力 | 40 页 | 8.51 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型 点击模型 阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识 • categorical特征 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询 实时数据 自解释特征 1 2 3 深度学习应用与实践 常规CTR方法排序 微博Feed流排序场景介绍 目录 为什么选择深度学习 Ø 线性CTR模型 • 优势:简单高效、可解释性强 • 局限性:特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型(DNN based model) loss 深度学习应用实践 —— wide & deep Ø Wide & deep 网络架构 • Deep—泛化能力 • Wide—记忆能力 Ø 新增特征 Ø Deep部分依然需要特征工程 • Contextual featues: 用户最 近的平均阅读时长、用户最近 的互动微博 • Wide输入 • conitnues特征离散化 + 手动交叉特征 • Deep输入 • conitnues特征离散化0 码力 | 21 页 | 2.14 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文机器学习算法 数据 已训练模型 预测 训练 预测 深度学习和传统机器学习 输入数据 深度学习算法 输入数据 特征工程 传统机器学习算法 非常耗费时间 以文本分类过程举例,常见 的特征提取算法包括: 词频 TF-IDF 互信息 信息增益 期望交叉熵 主成分分析 … 特征工程需要手工寻找特 征,花费大量人力,特征的 好坏往往决定最终结果 深度学习基础结构 基础神经元结构 多个神经元连接组成神经网络 选择分类器(朴素贝叶斯,SVM,KNN,LR,决 策树) • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求 • 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) 总结:深度学习用于文本挖掘的优缺点 优点: 1,可以使用非监督数据训练字词向量,提升泛化能力 2,端到端,提供新思路 3,一些模型结构能够克服传统模型缺点 缺点: 1,小数据量效果不一定好 2,调参工作量有时不亚于特征工程 3,客户部署硬件环境限制 总结:一些实践经验 1,在业务场景下,尽量收集并理解数据,分析问题本质,选择合适模型 2,初始阶段可以使用传统机器学习模型快速尝试,作为baseline版本 3,疑难问题使用端到端的方式也许会有惊喜0 码力 | 46 页 | 25.61 MB | 1 年前3
超大规模深度学习在美团的应用-余建平自我介绍 自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 的Wide & Deep 1. 大规模离散特征 的Wide & Deep 2. DeepFM 3. Deep Cross 树模型 小规模DNN 大规模离散DNN • 超大规模深度学习 工程实现 数据并行、模型并行 在线、近线、离线逻辑一致性 实时模型 业务应用 召回模型,ANN搜索 粗排模型,模型预计算 精排模型,大规模离散DNN 总结0 码力 | 41 页 | 5.96 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波支持SGD 、 FTRL 、 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 x2……,xn) 模型服务 特征服务 微博机器学习平台 灰度系统 3 平台效果 • 成本/效率 建设平台(业务A) 业务开发 模型开发 特征工程 建设 平台 接入平台(业务B) 接入 平台 业务开发 模型开发 特征工程 3 平台效果 总结篇 SUMMARY 微博技术里程碑和业务生态 13 2008年 Hadoop 2009年 微博Feed 2011年 开放平台0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人 机器学习可以解决什么问题 11 机器学习发展史 总的来说,人工智能经历了逻辑推理、知识工程、机器 学习三个阶段。 机器学习伴随着人工智能的发展而诞生,它是人工智能 发展到一定阶段的必然产物。 12 机器学习发展史 13 机器学习发展史 14 2. 机器学习的类型 01 写入剪切板 68 Python模块-SciPy ⚫SciPy SciPy是构建在NumPy的基础之上的,它 提供了许多的操作NumPy的数组的函数。 SciPy是一款方便、易于使用、专为科学和 工程设计的Python工具包,它包括了统计 、优化、整合以及线性代数模块、傅里叶 变换、信号和图像图例,常微分方差的求 解等 scipy.cluster 向量量化 scipy.constants 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 73 机器学习的一般步骤 74 机器学习的一般步骤 数据搜集 数据清洗 特征工程 数据建模 75 不同视角的机器学习 朋友以为我做的事情 不同行业的人以为我做的事情 父母以为我做的事情 程序员以为我做的事情 我自己以为我做的事情 实际上我做的事情 76 通过这张图可以看出,0 码力 | 78 页 | 3.69 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用2 到达识别,交付时间计算 数据积累,异常数据剔除 网格建立,分时段统计 交付时间预估 取餐/送餐分别回归拟合 骑士速度预估 9 时间预估 — 出餐时间预估 10 数据 & 特征工程 • 特征 = 基础特征 + 组合特征 + 统计特征 + 稀疏特征 • 基础特征:订单信息,如商户id、菜品名称、下单时间、未出餐订单、前序订单误差等 • 组合特征:核心基础特征的组合 • 降维:PCA降维,减少内存消耗并一定程度上避免过拟合 模型 • DNN模型 - DNN深度神经网络学习;通过引入非线性映射,并包含多层感知器,海量的出餐时间训练数据,DNN 更好地学习自身有用的特征 - DNN对特征工程要求较低,自身可以学习有用的特征,PCA降维影响较小,但时间复杂度较高 • XGBoost模型 - 采用近似求解算法,找出可能的分裂点,避免选用贪心算法的过高时间复杂度 - 计算采用不同分裂点0 码力 | 28 页 | 6.86 MB | 1 年前3
共 19 条
- 1
- 2













