混沌工程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-特征工程

1 2021年09月机器学习-特征工程黄海广副教授 2 本章目录 01 相关概念 02 特征构建 03 特征提取 04 特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019 是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择特征工程相关概念 1. 相关概念 5 通过这张图可以看出，各种不同算法在输入的数据量达到一定级数后，都有相近的高准确度。于是诞生了机器学习界的名言：成功的机器学习应用不是拥有最好的算法，而是拥 Learning. Stanford University 2. 《统计学习方法》，清华大学出版社，李航著，2019年出版 3. 《机器学习》，清华大学出版社，周志华著，2016年出版 4. 《特征工程及 XGBoost模型》，武汉理工大学课件 38 谢谢！

0 码力 | 38 页 | 1.28 MB | 1 年前
3
深度学习在百度搜索中的工程实践-百度-曹皓

0 码力 | 40 页 | 29.46 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 6 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 • 基于性能指标比较几种机 • 解释模型结果 • 得出结论 • 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗什么是数据清洗？数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包量直方图之间的散点图。 18 3.特征工程 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 19 3.特征工程特征工程和特征选择 •特征工程: 获取原始数据并提取或创建新特征的过程。这可能意味着需要对变量进行变换，例如自然对数和平方根，或者对分类变量进行one-hot编码，以便它们可以在模型中使用。一般来说，我认为特征工程是从原始数据创建附加特征。

0 码力 | 26 页 | 1.53 MB | 1 年前
3
阿里云上深度学习建模实践-程孟力

• 优势: 效果显著超越传统模型(线性层模型 / 树模型 / SVM模型 / … ) 深度学习应用场景沙漠湖泊旅行深度学习应用主要的挑战： 2.模型效果优化困难 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大 1.方案复杂从FM到DeepFM rt 增加了10倍怎么优化？怎么搞出来一个效果还不错的模型? ✗ 标注速度慢 ✗ 标注成本高 ✗ 样本分布不均匀 ✗ 隐私保护 • 多个环节 • 多种模型 ✗ 海量参数 ✗ 海量数据深度学习应用主要的挑战： 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的: • 参数很多 • 参数敏感 • 不同场景的数据上差异大手里面只有5张图片，怎么搞出来一个效果还不错的模型? ✗ 标注速度慢冷启动排序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化: Standard Solutions 智能推荐解决方案 > 实时推荐方案 3.工程优化复杂 4.数据获取困难挑战深度模型是非线性的黑盒: • 参数很多 • 参数敏感 • 不同场景的数据上差异大从FM到DeepFM rt 增加了10倍怎么优化？手里面只有5张图片，

0 码力 | 40 页 | 8.51 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

点击（图片/视频/文章/链接等）阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 learning to rank 互动模型点击模型阅读模型 Score = ?)*+,-./+ ∗ ???? + ?/6)/7 ∗ ???? + ?-,.8 ∗ ???? 特征工程 Ø 特征工程非常重要 • 手动组合——专家知识 • categorical特征模型评估模型预测 CTR预估排序策略权值映射业务排序其他策略特征工程特征存储特征查询实时数据自解释特征 1 2 3 深度学习应用与实践常规CTR方法排序微博Feed流排序场景介绍目录为什么选择深度学习 Ø 线性CTR模型 • 优势：简单高效、可解释性强 • 局限性：特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型（DNN based model） loss 深度学习应用实践 —— wide & deep Ø Wide & deep 网络架构 • Deep—泛化能力 • Wide—记忆能力 Ø 新增特征 Ø Deep部分依然需要特征工程 • Contextual featues: 用户最近的平均阅读时长、用户最近的互动微博 • Wide输入 • conitnues特征离散化 + 手动交叉特征 • Deep输入 • conitnues特征离散化

0 码力 | 21 页 | 2.14 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

机器学习算法数据已训练模型预测训练预测深度学习和传统机器学习输入数据深度学习算法输入数据特征工程传统机器学习算法非常耗费时间以文本分类过程举例，常见的特征提取算法包括：词频 TF-IDF 互信息信息增益期望交叉熵主成分分析 … 特征工程需要手工寻找特征，花费大量人力，特征的好坏往往决定最终结果深度学习基础结构基础神经元结构多个神经元连接组成神经网络选择分类器（朴素贝叶斯，SVM，KNN，LR，决策树） • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果深度学习（CNN，RNN等） • 端到端，无需大量特征工程 • 框架通用性好，满足多领域需求 • 可以使用非监督语料训练字词向量提升效果文本分类 CNN RNN CLSTM 序列标注传统机器学习（CRF） • 需要大量特征工程 • 不同领域需要反复调整深度学习（Bi-LSTM+CRF）总结：深度学习用于文本挖掘的优缺点优点： 1，可以使用非监督数据训练字词向量，提升泛化能力 2，端到端，提供新思路 3，一些模型结构能够克服传统模型缺点缺点： 1，小数据量效果不一定好 2，调参工作量有时不亚于特征工程 3，客户部署硬件环境限制总结：一些实践经验 1，在业务场景下，尽量收集并理解数据，分析问题本质，选择合适模型 2，初始阶段可以使用传统机器学习模型快速尝试，作为baseline版本 3，疑难问题使用端到端的方式也许会有惊喜

0 码力 | 46 页 | 25.61 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

自我介绍自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习工程相关的工作，加入美团后，负责超大规模机器学习系统，从无到有搭建起支持千亿级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX 的Wide & Deep 1. 大规模离散特征的Wide & Deep 2. DeepFM 3. Deep Cross 树模型小规模DNN 大规模离散DNN • 超大规模深度学习  工程实现  数据并行、模型并行  在线、近线、离线逻辑一致性  实时模型  业务应用  召回模型，ANN搜索  粗排模型，模型预计算  精排模型，大规模离散DNN 总结

0 码力 | 41 页 | 5.96 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

支持SGD 、 FTRL 、 Adagrad等优化算法模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型，对特征工程依赖较强 • FM：大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL：调节学习率，突出低频特征，非batch优化 • Adagrad : 调节学习率，突出低频特征，实现简单 x2……,xn) 模型服务特征服务微博机器学习平台灰度系统 3 平台效果 • 成本/效率建设平台（业务A）业务开发模型开发特征工程建设平台接入平台（业务B）接入平台业务开发模型开发特征工程 3 平台效果总结篇 SUMMARY 微博技术里程碑和业务生态 13 2008年 Hadoop 2009年微博Feed 2011年开放平台

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-01机器学习-引言

确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人机器学习可以解决什么问题 11 机器学习发展史总的来说，人工智能经历了逻辑推理、知识工程、机器学习三个阶段。机器学习伴随着人工智能的发展而诞生，它是人工智能发展到一定阶段的必然产物。 12 机器学习发展史 13 机器学习发展史 14 2. 机器学习的类型 01 写入剪切板 68 Python模块-SciPy ⚫SciPy SciPy是构建在NumPy的基础之上的，它提供了许多的操作NumPy的数组的函数。 SciPy是一款方便、易于使用、专为科学和工程设计的Python工具包，它包括了统计、优化、整合以及线性代数模块、傅里叶变换、信号和图像图例，常微分方差的求解等 scipy.cluster 向量量化 scipy.constants 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 73 机器学习的一般步骤 74 机器学习的一般步骤数据搜集数据清洗特征工程数据建模 75 不同视角的机器学习朋友以为我做的事情不同行业的人以为我做的事情父母以为我做的事情程序员以为我做的事情我自己以为我做的事情实际上我做的事情 76 通过这张图可以看出，

0 码力 | 78 页 | 3.69 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

2 到达识别，交付时间计算数据积累，异常数据剔除网格建立，分时段统计交付时间预估取餐/送餐分别回归拟合骑士速度预估 9 时间预估 — 出餐时间预估 10 数据 & 特征工程 • 特征 = 基础特征 + 组合特征 + 统计特征 + 稀疏特征 • 基础特征：订单信息，如商户id、菜品名称、下单时间、未出餐订单、前序订单误差等 • 组合特征：核心基础特征的组合 • 降维：PCA降维，减少内存消耗并一定程度上避免过拟合模型 • DNN模型 - DNN深度神经网络学习；通过引入非线性映射，并包含多层感知器，海量的出餐时间训练数据，DNN 更好地学习自身有用的特征 - DNN对特征工程要求较低，自身可以学习有用的特征，PCA降维影响较小，但时间复杂度较高 • XGBoost模型 - 采用近似求解算法，找出可能的分裂点，避免选用贪心算法的过高时间复杂度 - 计算采用不同分裂点

0 码力 | 28 页 | 6.86 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式