工作流程 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-机器学习项目流程

1 2021年06月机器学习-机器学习项目流程黄海广副教授 2 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 3 1.机器学习项目流程概述 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 4 机器学习的一般步骤 5 机器学习的一般步骤数据搜集数据清洗数据清理和格式化 • 探索性数据分析(EDA) • 特征工程 • 特征选择 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 • …… 7 2.数据清洗 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 8 2.数据清洗什么是数据清洗？数据清洗是指发现并纠正数据文件中可识别的错误的最后一道程序，包括检查数据拼写错误命名习惯数理统计技术数据挖掘技术脏数据数据清理策略、规则满足数据质量要求的数据数据清理原理 10 探索性数据分析(EDA) 探索性数据分析（EDA）是一个开放式流程，我们制作绘图并计算统计数据，以便探索我们的数据。 •目的是找到异常，模式，趋势或关系。这些可能是有趣的（例如，找到两个变量之间的相关性），或者它们可用于建模决策，例如使用哪些特征。

0 码力 | 26 页 | 1.53 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

Transformer的训练本章目录 01 Transformer介绍 02 Transformer的工作流程 04 BERT 3 1.Transformer介绍 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 4 1.Transformer介绍为什么需要用transformer Transformer的工作流程 01 Transformer介绍 03 Transformer的训练 02 Transformer的工作流程 04 BERT 14 2.Transformer的工作流程从宏观的视角开始首先将这个模型看成是一个黑箱操作。在机器翻译中，就是输入一种语言，输出另一种语言。 15 2.Transformer的工作流程那么拆开这个 Transformer的工作流程编码组件部分由一堆编码器（encoder）构成（论文中是将6个编码器叠在一起）。解码组件部分也是由相同数量（与编码器对应）的解码器（decoder）组成的。 17 2.Transformer的工作流程所有的编码器在结构上都是相同的，但它们没有共享参数。每个解码器都可以分解成两个子层。 18 2.Transformer的工作流程从

0 码力 | 60 页 | 3.51 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

这是一本面向人工智能，特别是深度学习初学者的书，本书旨在帮助更多的读者朋友了解、喜欢并进入到人工智能行业中来，因此作者试图从分析人工智能中的简单问题入手，一步步地提出设想、分析方案以及实现方案，重温当年科研工作者的发现之路，让读者身临其境式的感受算法设计思想，从而掌握分析问题、解决问题的能力。这种方式也是对读者的基础要求较少的，读者在学习本书的过程中会自然而然地了解算法的相关背景知识，体会到知识是为值函数方法 14.5 Actor-Critic 方法 14.6 小结 14.7 参考文献第 15 章自定义数据集 15.1 精灵宝可梦数据集 15.2 自定义数据集加载流程 15.3 宝可梦数据集实战 15.4 迁移学习 15.5 Saved_model 15.6 模型部署 15.7 参考文献预览版202112 人工智能绪论信息技术是人类历史上的第三次工业革命，计算机、互联网、智能家居等技术的普及极大地方便了人们的日常生活。通过编程的方式，人类可以将提前设计好的交互逻辑交给机器重复且快速地执行，从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需要较高智能水平的任务，如人脸识别、聊天机器人、自动驾驶等任务，很难设计明确的逻辑规则，传统的编程方式显得力不从心，而人工智能(Artificial Intelligence，简称

0 码力 | 439 页 | 29.91 MB | 1 年前
3
《TensorFlow 快速入门与实战》4-实战TensorFlow房价预测

22368 -1.02697 -0.63757 -0.22368 -0.78305 训练数据：假设函数：使用 TensorFlow 实现房价预测模型使用 TensorFlow 训练模型的工作流数据读入数据分析数据规范化创建模型 (数据流图) 创建会话 (运行环境) 训练模型数据分析库：Pandas Pandas 是一个 BSD 开源协议许可的，面向 Python 它通过展示直观的图形，能够有效地辅助机器学习程序的开发者和使用者理解算法模型及其工作流程，提升模型开发工作效率。 TensorBoard 可视化训练 TensorBoard 可视化统计数据 TensorBoard 可视化数据分布 TensorBoard 可视化数据集（MNIST） TensorBoard 可视化数据流图 TensorBoard 使用流程可视化的数据是数据流图和张量，它们需要在会话中加载或执行操作后才能获取。然后，模块介绍前述流程中使用的 FileWriter 实例和汇总操作（Summary Ops）均属于 tf.summary 模块。其主要功能是获取和输出模型相关的序列化数据，它贯通 TensorBoard 的整个使用流程。 tf.summary 模块的核心部分由一组汇总操作以及 FileWriter、Summary 和 Event 3个类组成。可视化数据流图工作流创建数据流图

0 码力 | 46 页 | 5.71 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 3 1. 深度学习概述 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 4 深度学习与机器学习、人工智能的关系人工智能：机器展现的人类智能机器学习：计算机利用已有的数据(经验)，得出了某种模型，并利雷达、雷达和超声波传感器从环境中获取图像，研发自动驾驶汽车来探测目标、车道标志和交通信号，从而安全驾驶。安防中国在使用人脸识别技术方面无疑处于领先地位，这项技术被广泛应用于警察工作、支付识别、机场安检，甚至在北京天坛公园分发厕纸、防止厕纸被盗，以及其他许多应用。医疗由于90％的医疗数据都是基于图像的，因此医学中的计算机视觉有很多用途。比如启用新的成等的操作和加工。自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。可以说，自然语言处理就是要计算机理解自然语言，自然语言处理机制涉及两个流程，包括自然语言理解和自然语言生成，自然语言理解是让计算机把输入的语言变成有意思的符号和关系，然后根据目的再处理；自然语言生成则是把计算机数据转化为自然语言。实现人机间的信息交流，是人工智能

0 码力 | 80 页 | 5.38 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

自我介绍 2011年硕士毕业于南京大学计算机科学与技术系。毕业后曾在百度凤巢从事机器学习工程相关的工作，加入美团后，负责超大规模机器学习系统，从无到有搭建起支持千亿级别规模的深度学习系统，与推荐、搜索、广告业务深度合作，在算法上提供从召回到排序的全系统优化方案，在工程上提供离线、近线、在线的全流程解决方案。目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标 AUC、Loss、MAE、RMSE  支持外部eval工具，计算MAP、NDCG MLX的模型能力 • 提供离线、近线、在线全流程解决方案，各阶段提供扩展方案，降低算法迭代成本； • 支持Online Learning，提供从近线到在线的模型数据通路； • 提供从召回到排序全流程的模型解决方案，为业务提供最佳实践； • 提供系统的平台化工具，为用户提供易用的界面操作； MLX模型能力 MLX平台架构用户侧：能设计完整的特征，个性化，实时特征  Item侧：预计算带来的副作用，不能使用实时特征点击(+) 仅曝光同地域全体集合分布偏差大无效信息多样本分布 • 在线、近线、离线全流程解决方案召回模型通路 • 粗排模型 • 精排模型排序模型解决方案 • 粗排阶段的特点  候选集大，通常在千到万级别  线上的响应时间要求高，通常在几到十几ms • 简单模型 

0 码力 | 41 页 | 5.96 MB | 1 年前
3
动手学深度学习 v2.0

这些需求的工具和工作流程，所以我们不得不自行组装。我们在 16.5节中详细描述了我们的方法。我们选择GitHub来共享源代码并允许编辑，选择Jupyter记事本来混合代码、公式和文本，选择Sphinx作为渲染引擎来生成多个输出，并为论坛提供讨论。虽然我们的体系尚不完善，但这些选择在相互冲突的问题之间提供了一个很好的妥协。我们相信，这可能是第一本使用这种集成工作流程出版的书。 1 在实践中学习许多教科书教授一系列的主题，每一个都非常详细。例如，Chris Bishop的优秀教科书 (Bishop, 2006) ，对每个主题都教得很透彻，以至于要读到线性回归这一章需要大量的工作。虽然专家们喜欢这本书正是因为它的透彻性，但对初学者来说，这一特性限制了它作为介绍性文本的实用性。在这本书中，我们将适时教授大部分概念。换句话说，你将在实现某些实际目的所需的非常时刻学习概念。都介绍了适量的新概念，并提供可独立工作的例子——使用真实的数据集。这带来了组织上的挑战。某些模型可能在逻辑上组合在单节中。而一些想法可能最好是通过连续允许几个模型来传授。另一方面，坚持“一个工作例子一节”的策略有一个很大的好处：这使你可以通过利用我们的代码尽可能轻松地启动你自己的研究项目。只需复制这一节的内容并开始修改即可。我们将根据需要将可运行代码与背景材料交错。通常，在充分

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

? ?? ? ???2 ?? ? = − 9 15 ???2 9 15 − 6 15 ???2 6 15 = 0.971 数量是否信息熵 15 9 6 0.971 年龄有工作有房子信用类别 0 青年否否一般否 1 青年否否好否 2 青年是否好是 3 青年是是一般是 4 青年否否一般否 5 中年否否一般否 10 老年否是非常好是 11 老年否是好是 12 老年是否好是 13 老年是否非常好是 14 老年否否一般否 12 按年龄划分信息熵年龄有工作有房子信用类别 0 青年否否一般否 1 青年否否好否 2 青年是否好是 3 青年是是一般是 4 青年否否一般否 5 中年否否一般否 7219 ?1 年龄 ?2 有工作 ?3 有房子 ?4 信用 13 ? ? ? = ෍ ?=1 ? ?? ? ?(??) 条件熵 A是特征， ?是特征取值条件熵 ? ? 年龄 = ෍ ?=1 ? ?? ? ?(??) = 5 15 × 0.971 + 5 15 × 0.971 + 5 15 ×0.7219 = 0.8880 年龄有工作有房子信用类别 0 青年

0 码力 | 39 页 | 1.84 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

完成全部代码构建与程序演示。本章的主要目标是帮助初次接触 Python 与 Pytorch 的读者搭建好开发环境，认识与理解 Pytorch 框架中常见的基础操作函数、学会使用它们完成一些基础的数据处理与流程处理，为后续内容学习打下良好基础。好了，下面就让我们来一起开启这段 Pytorch 框架的深度学习破冰之旅。 PyTorch + OpenVINO 开发实战系列教程第一篇 2 1. 而在深度学习框架中编程模式主要是基于计算图、张量数据、自动微分、优化器等组件构成。面向对象编程运行的结果是交互式可视化的，而深度学习通过训练模型生成模型文件，然后再使用模型预测，本质数据流图的方式工作。所以学习深度学习首先必须厘清深度学习编程中计算图、张量数据、自动微分、优化器这些基本术语概念，下面分别解释如下： ● 张量张量是深度学习编程框架中需要理解最重要的一个概念，张量型的构建与训练过程，最终根据输入的迭代次数运行输出就获取了回归直线的两个参数。完成了线性回归的求解。 1.5.2 线性回归代码演示通过前面一小节的学习读者应该了什么是线性回归、线性回归是如何工作的，现在我们已经迫不及待的想在 Pytorch 中通过代码来验证我们上面的理论解释了。Pytorch 提供了丰富的函数组件可以帮助我们快速搭建线性回归模型并完成训练预测。第一步：构建数据集

0 码力 | 13 页 | 5.99 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

CTR概要介绍数据特征目标模型效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程业务目标与模型选择 Ø 模型优化目标 • 互动（转发/评论/赞）点击（图片/视频/文章/链接等）阅读时长 Ø 模型选择 • 线性模型LR+特征工程 • 多目标预估 • 排序基于pointwise的 • Deep和FM共享 embedding层总结展望 Ø 模型算法是手段 • 模型算法殊途同归 • 业务和数据决定模型算法的应用场景 • 计算力和算法架构是保障总结展望 Ø 未来工作 • 更多的融合网络结构适用于CTR预估场景 • 多模态—更好的对非结构化内容进行表征 • 用户行为序列embedding

0 码力 | 21 页 | 2.14 MB | 1 年前
3

共 44 条前往

页

分类

语言

格式