机器学习课程-温州大学-机器学习项目流程1 2021年06月 机器学习-机器学习项目流程 黄海广 副教授 2 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤 数据搜集 数据清洗 数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗 什么是数据清洗? 数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序,包 括检查数据 拼写错误 命名习惯 数理统计技术 数据挖掘技术 脏数据 数据清理策略、规则 满足数据质量要求的数据 数据清理原理 10 探索性数据分析(EDA) 探索性数据分析(EDA)是一个开放式流程,我们制作绘图并计算 统计数据,以便探索我们的数据。 •目的是找到异常,模式,趋势或关系。 这些可能是有趣的(例如, 找到两个变量之间的相关性),或者它们可用于建模决策,例如使 用哪些特征。0 码力 | 26 页 | 1.53 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的训练 本章目录 01 Transformer介绍 02 Transformer的工作流程 04 BERT 3 1.Transformer介绍 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 4 1.Transformer介绍 为什么需要用transformer Transformer的工作流程 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 14 2.Transformer的工作流程 从宏观的视角开始 首先将这个模型看成是一个黑箱操作。在机器翻译中,就 是输入一种语言,输出另一种语言。 15 2.Transformer的工作流程 那么拆开这个 Transformer的工作流程 编码组件部分由一堆编 码器(encoder)构成 (论文中是将6个编码 器叠在一起)。解码组 件部分也是由相同数量 (与编码器对应)的解 码器(decoder)组成 的。 17 2.Transformer的工作流程 所有的编码器在结构上都是相同 的,但它们没有共享参数。每个 解码器都可以分解成两个子层。 18 2.Transformer的工作流程 从0 码力 | 60 页 | 3.51 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112这是一本面向人工智能,特别是深度学习初学者的书,本书旨在帮助更多的读者朋友了 解、喜欢并进入到人工智能行业中来,因此作者试图从分析人工智能中的简单问题入手,一 步步地提出设想、分析方案以及实现方案,重温当年科研工作者的发现之路,让读者身临其 境式的感受算法设计思想,从而掌握分析问题、解决问题的能力。这种方式也是对读者的基 础要求较少的,读者在学习本书的过程中会自然而然地了解算法的相关背景知识,体会到知 识是为 值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献 第 15 章 自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 15.3 宝可梦数据集实战 15.4 迁移学习 15.5 Saved_model 15.6 模型部署 15.7 参考文献 预览版202112 人工智能绪论 信息技术是人类历史上的第三次工业革命,计算机、互联网、智能家居等技术的普及 极大地方便了人们的日常生活。通过编程的方式,人类可以将提前设计好的交互逻辑交给 机器重复且快速地执行,从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需 要较高智能水平的任务,如人脸识别、聊天机器人、自动驾驶等任务,很难设计明确的逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial Intelligence,简称0 码力 | 439 页 | 29.91 MB | 1 年前3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测22368 -1.02697 -0.63757 -0.22368 -0.78305 训练数据: 假设函数: 使用 TensorFlow 实现房价预测模型 使用 TensorFlow 训练模型的工作流 数据读入 数据分析 数据 规范化 创建模型 (数据流图) 创建会话 (运行环境) 训练模型 数据分析库:Pandas Pandas 是一个 BSD 开源协议许可的,面向 Python 它通过展示直观的图形,能够有效地辅助机器学习程序的开发者和使 用者理解算法模型及其工作流程,提升模型开发工作效率。 TensorBoard 可视化训练 TensorBoard 可视化统计数据 TensorBoard 可视化数据分布 TensorBoard 可视化数据集(MNIST) TensorBoard 可视化数据流图 TensorBoard 使用流程 可视化的数据是数据流图和张量,它们需要在会话中加载或执行操作后才能获取。然后, 模块介绍 前述流程中使用的 FileWriter 实例和汇总操作(Summary Ops) 均属于 tf.summary 模块。其主要功能是获取和输出模型相关的 序列化数据,它贯通 TensorBoard 的整个使用流程。 tf.summary 模块的核心部分由一组汇总操作以及 FileWriter、Summary 和 Event 3个类组成。 可视化数据流图 工作流 创建 数据流图0 码力 | 46 页 | 5.71 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 3 1. 深度学习概述 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 4 深度学习与机器学习、人工智能的关系 人工智能:机器展现的人类智能 机器学习:计算机利用已有的数 据(经验),得出了某种模型,并利 雷达、雷达和超声波传感器从环境中获取图 像,研发自动驾驶汽车来探测目标、车道标 志和交通信号,从而安全驾驶。 安防 中国在使用人脸识别技术方面无疑处于领先地 位,这项技术被广泛应用于警察工作、支付识 别、机场安检,甚至在北京天坛公园分发厕 纸、防止厕纸被盗,以及其他许多应用。 医疗 由于90%的医疗数据都是基于图像的,因此医 学中的计算机视觉有很多用途。比如启用新的 成等的操作和加工。自然语言处理的具体表现形式包括机器 翻译 、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识 别等。 可以说,自然语言处理就是要计算机理解自然语言,自然 语言处理机制涉及 两个流程,包括自然语言理解和自然语言生成 ,自然语言理解是让计算机把 输入的语言变成有意思的符号和关 系,然后根据目的再处理;自然语言生成 则是把计算机数据转 化为自然语言。实现人机间的信息交流,是人工智能0 码力 | 80 页 | 5.38 MB | 1 年前3
超大规模深度学习在美团的应用-余建平自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习 工程相关的工作,加入美团后,负责超大规模机器学习系统,从无到有搭建起支持千亿 级别规模的深度学习系统,与推荐、搜索、广告业务深度合作,在算法上提供从召回到 排序的全系统优化方案,在工程上提供离线、近线、在线的全流程解决方案。 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 AUC、Loss、MAE、RMSE 支持外部eval工具,计算MAP、NDCG MLX的模型能力 • 提供离线、近线、在线全流程解决方案,各阶段提供扩展方案,降低算法迭代成本; • 支持Online Learning,提供从近线到在线的模型数据通路; • 提供从召回到排序全流程的模型解决方案,为业务提供最佳实践; • 提供系统的平台化工具,为用户提供易用的界面操作; MLX模型能力 MLX平台架构 用户侧:能设计完整的特征,个性化,实时特征 Item侧:预计算带来的副作用,不能使用实时特征 点击(+) 仅曝光 同地域 全体集合 分布偏差大 无效信息多 样本分布 • 在线、近线、离线全流程解决方案 召回模型通路 • 粗排模型 • 精排模型 排序模型解决方案 • 粗排阶段的特点 候选集大,通常在千到万级别 线上的响应时间要求高,通常在几到十几ms • 简单模型 0 码力 | 41 页 | 5.96 MB | 1 年前3
动手学深度学习 v2.0这些需求的工具和工作流程,所以我 们不得不自行组装。我们在 16.5节 中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑,选 择Jupyter记事本来混合代码、公式和文本,选择Sphinx作为渲染引擎来生成多个输出,并为论坛提供讨论。 虽然我们的体系尚不完善,但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信,这可能是 第一本使用这种集成工作流程出版的书。 1 在实践中学习 许多教科书教授一系列的主题,每一个都非常详细。例如,Chris Bishop的优秀教科书 (Bishop, 2006) ,对每 个主题都教得很透彻,以至于要读到线性回归这一章需要大量的工作。虽然专家们喜欢这本书正是因为它的 透彻性,但对初学者来说,这一特性限制了它作为介绍性文本的实用性。 在这本书中,我们将适时教授大部分概念。换句话说,你将在实现某些实际目的所需的非常时刻学习概念。 都介绍了适量的新概念,并提供可独立工 作的例子——使用真实的数据集。这带来了组织上的挑战。某些模型可能在逻辑上组合在单节中。而一些想 法可能最好是通过连续允许几个模型来传授。另一方面,坚持“一个工作例子一节”的策略有一个很大的好 处:这使你可以通过利用我们的代码尽可能轻松地启动你自己的研究项目。只需复制这一节的内容并开始修 改即可。 我们将根据需要将可运行代码与背景材料交错。通常,在充分0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树? ?? ? ???2 ?? ? = − 9 15 ???2 9 15 − 6 15 ???2 6 15 = 0.971 数量 是 否 信息熵 15 9 6 0.971 年龄 有工作 有房子 信用 类别 0 青年 否 否 一般 否 1 青年 否 否 好 否 2 青年 是 否 好 是 3 青年 是 是 一般 是 4 青年 否 否 一般 否 5 中年 否 否 一般 否 10 老年 否 是 非常好 是 11 老年 否 是 好 是 12 老年 是 否 好 是 13 老年 是 否 非常好 是 14 老年 否 否 一般 否 12 按年龄划分 信息熵 年龄 有工作 有房子 信用 类别 0 青年 否 否 一般 否 1 青年 否 否 好 否 2 青年 是 否 好 是 3 青年 是 是 一般 是 4 青年 否 否 一般 否 5 中年 否 否 一般 否 7219 ?1 年龄 ?2 有工作 ?3 有房子 ?4 信用 13 ? ? ? = ?=1 ? ?? ? ?(??) 条件熵 A是特征, ?是特征取值 条件熵 ? ? 年龄 = ?=1 ? ?? ? ?(??) = 5 15 × 0.971 + 5 15 × 0.971 + 5 15 ×0.7219 = 0.8880 年龄 有工作 有房子 信用 类别 0 青年0 码力 | 39 页 | 1.84 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇完成全部代码构建与程序演示。本章的主要目标是帮助初 次接触 Python 与 Pytorch 的读者搭建好开发环境,认识与理解 Pytorch 框架 中常见的基础操作函数、学会使用它们完成一些基础的数据处理与流程处理, 为后续内容学习打下良好基础。 好了,下面就让我们来一起开启这段 Pytorch 框架的深度学习破冰之旅。 PyTorch + OpenVINO 开发实战系列教程 第一篇 2 1. 而在深度学习框架中编程模式主要是基于计算图、张量数据、 自动微分、优化器等组件构成。面向对象编程运行的结果是交 互式可视化的,而深度学习通过训练模型生成模型文件,然后 再使用模型预测,本质数据流图的方式工作。所以学习深度学 习首先必须厘清深度学习编程中计算图、张量数据、自动微分、 优化器这些基本术语概念,下面分别解释如下: ● 张量 张量是深度学习编程框架中需要理解最重要的一个概念,张量 型的构建与训练过程,最终根据输入的迭代次数运行输出就获 取了回归直线的两个参数。完成了线性回归的求解。 1.5.2 线性回归代码演示 通过前面一小节的学习读者应该了什么是线性回归、线性回归 是如何工作的,现在我们已经迫不及待的想在 Pytorch 中通过 代码来验证我们上面的理论解释了。Pytorch 提供了丰富的函 数组件可以帮助我们快速搭建线性回归模型并完成训练预测。 第一步:构建数据集0 码力 | 13 页 | 5.99 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博CTR概要介绍 数据 特征 目标 模型 效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程 业务目标与模型选择 Ø 模型优化目标 • 互动(转发/评论/赞) 点击(图片/视频/文章/链接等) 阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 • Deep和FM共享 embedding层 总结展望 Ø 模型算法是手段 • 模型算法殊途同归 • 业务和数据决定模型算法的应用场景 • 计算力和算法架构是保障 总结展望 Ø 未来工作 • 更多的融合网络结构适用于CTR预估场景 • 多模态—更好的对非结构化内容进行表征 • 用户行为序列embedding0 码力 | 21 页 | 2.14 MB | 1 年前3
共 44 条
- 1
- 2
- 3
- 4
- 5













