研究方法 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-特征工程

相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读定义目的作用是把原始数据转变为模型的训练数据的过程获取更好的训练数据特征，使得机器学习模型逼近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用成功的机器学习应用不是拥有最好的算法，而是拥有最多的数据！数据决定一切数据大小准确率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目特征提取特征选择共同点都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别 ➢ 强调通过特征转换的方式得到一组具有明显物理或统计相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建：是指从原始数据中人工的找出一些具有物理意义的特征。方法：经验、属性分割和结合操作：使用混合属性或者组合属性来创建新的特征，或是分解或切分原有的特征来创建新的特征 2. 特征构建在原始数据集中的特征

0 码力 | 38 页 | 1.28 MB | 1 年前
3
动手学深度学习 v2.0

2 多元梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 11.3.3 自适应方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 11.4 随机梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 13.1.1 常用的图像增广方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 13.1.2 使用图像增广进行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624 13.12.1 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625 13.12.2

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

者对这些数学知识有初步印象或了解即可。比起理论基础，读者需要有少量的编程经验，特别是 Python 语言编程经验，显得更加重要，因为本书更侧重于实用性，而不是堆砌公式。总的来说，本书适合于大学三年级左右的理工科本科生和研究生，以及其他对人工智能算法感兴趣的朋友。本书共 15 章，大体上可分为 4 个部份：第 1~3 章为第 1 部分，主要介绍人工智能的初步认知，并引出相关问题；第 4~5 章为第 2 部分，主要介绍思想和基础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂皮毛，同时也限于时间和篇幅关系，难免出现理解偏差甚至错缪之处，若能大方指出，作者将及时修正，不胜感激。第 2 章回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献第 3 章分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

https://github.com/wanzhenchn/keras-docs-zh。感谢 keras-team 所做的中文翻译工作，本文档制作基于此处。严正声明：本文档可免费用于学习和科学研究，可自由传播，但切勿擅自用于商业用途，由此引发一切后果贡献者概不负责。 The main reason of organizing PDF version based the Chinese Keras Sequential 属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 目录 III 4.2.3 Sequential 模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2.3.1 compile . . . . . . . . 3.2 Model 的实用属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3 Model 类模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3.1 compile . . . . . . .

0 码力 | 257 页 | 1.19 MB | 1 年前
3
PyTorch OpenVINO 开发实战系列教程第一篇

1. Pytorch 介绍与基础知识 1.1 Pytorch 介绍 Pytorch 是开放源代码的机器学习框架，目的是加速从研究原型到产品开发的过程。其 SDK 主要基于 Python 语言，而 Python 语言作为流行的人工智能开发语言一直很受研究者与开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 之后的 Pytorch。由于 Pytorch 吸取了之前一些深度学习框架优点，开发难度大大降低、很容易构建各种深度学习模型并实现分布式的训练，因此一发布就引发学术界的追捧热潮，成为深度学习研究者与爱好者的首选开发工具。在 pytorch 发布之后两年的 2018 年 facebook 又把 caffe2 项目整合到 pytorch 框架中，这样 pytorch 就进一步整合原来捧热潮，可以说“出道即巅峰”。Pytorch 虽然来自脸书实验室，但是它也吸引外部公司包括特斯拉、优步、亚马逊、微软、阿里等积极支持，其平缓的学习曲线，简洁方便的函数与模型构建在短时间内吸引了大量学术研究者与工业界开发者的追捧。当前无论是在学术界还是工业界 Pytorch 已经是主流深度学习框架之一，而且大有后来居上之势，因此随着人工智能赋能各行各业，Pytorch 框架必然会更加得到开发者的青睐，成为人

0 码力 | 13 页 | 5.99 MB | 1 年前
3
13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用

PYCON CHINA 基于深度学习的多维时间序列预测在数据机房中的应用目录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍数据机房面临的能耗问题数据机房面临电量消耗巨大的问题空调是数据机房中电量消耗最大的设备空调为什么那么耗电？怎么优化节能？低效的冷却装置服务主机工作发热影响空调耗电量原因建筑材料隔热和散存在延迟多维感知温度预测控制 2. 研究目标对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值，从而实现空调的预测控制。风机状态服务负载天气状况室外温度室外湿度门禁状态时序数据温度预测预测控制节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较传统时间序列预测 ⚫ 对单个维度历史信息进行预测代表算法有RNN，LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂的关系 ⚫ 提取维度之间空间依赖关系，长短期依赖关系 ⚫ 算法有LSTNet，TPA-LSTM 多维时间序列预测方法解决机房温度预测对数据包含的信息提取能力越来越强选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫

0 码力 | 17 页 | 2.49 MB | 1 年前
3
机器学习课程-温州大学-15深度学习-GAN

（二）生成式模型的积累（三）神经网络的深化（四）对抗思想的成功 GAN的概念简介及提出背景 2. GAN的理论与实现模型 12 GAN的理论与实现模型 GAN的基本原理 GAN的学习方法 GAN的衍生模型 2. GAN的理论与实现模型 13 GAN 的核心思想来源于博弈论的纳什均衡。它设定参与游戏双方分别为一个生成器 (Generator) 和一个判别器(Discriminator)，生成器的目的是尽 GAN的理论与实现模型 14 生成式对抗网络（GAN）结构图 2. GAN的理论与实现模型 15 GAN的学习方法 GAN的理论与实现模型首先, 在给定生成器 G 的情况下, 我们考虑最优化判别器 D. 2. GAN的理论与实现模型 16 GAN的学习方法总之, 对于 GAN 的学习过程, 我们需要训练模型 D 来最大化判别数据来源于真实数据或者伪数据分布 G(z) 的准确率的准确率, 同时, 我们需要训练模型 G来最小化 log(1 − D(G(z))). 这里可以采用交替优化的方法: 先固定生成器 G, 优化判别器 D, 使得 D 的判别准确率最大化; 然后固定判别器 D, 优化生成器 G, 使得 D 的判别准确率最小化. 当且仅当????? = ??时达到全局最优解. 训练 GAN 时, 同一轮参数更新中, 一般对 D 的参数更新 k 次再对 G的参数更新

0 码力 | 35 页 | 1.55 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

18 3.Word2Vec 负采样计算的角度来看，SkipGram非常消耗资源：尤其是我们将在数据集中为每个训练样本做一次（很可能数千万次）。我们需要做一些事情来提高效率。一种方法是将目标分成两个步骤： 1.生成高质量的单词嵌入（不要担心下一个单词预测）。 2.使用这些高质量的嵌入来训练语言模型（进行下一个单词预测）。 19 3.Word2Vec 负采样并不是每次迭代都训练全部10 入词，我们查看Embedding矩阵。对于上下文单词，我们查看Context矩阵（即使两个矩阵都在我们的词汇表中嵌入了每个单词）。 23 3.Word2Vec 训练流程现在我们需要一种方法将这些分数转化为看起来像概率的东西：使用sigmoid函数把概率转换为0和1。然后，我们计算输入嵌入与每个上下文嵌入的点积。在每种情况下，会产生一个数字，该数字表示输入和上下文嵌入的相似性。能力，产出预训练模型。再通过大规模预训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程文本风格主流思路是分离文本属性及文本内容迁移隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob

4.3 多元高斯分布 5. 其他资源概率论复习和参考概率论是对不确定性的研究。通过这门课，我们将依靠概率论中的概念来推导机器学习算法。这篇笔记试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂，并且涉及到“分析”的一个分支：测度论。在这篇笔记中，我们提供了概率的一些基本处理方法，但是不会涉及到这些更复杂的细节。 1. 概率的基本要素为了定义集合上的概率，我们需要一些基本元素，通过使用这个函数，我们可以计算任意事件发生的概率。图1显示了一个样本CDF函数。性质： 2.2 概率质量函数当随机变量取有限种可能值(即，是离散随机变量)时，表示与随机变量相关联的概率度量的更简单的方法是直接指定随机变量可以假设的每个值的概率。特别地，概率质量函数(PMF)是函数，这样：在离散随机变量的情况下，我们使用符号表示随机变量可能假设的一组可能值。例如，如果是一个随机变量，表示十次投掷硬币中的正面数，那么个感兴趣的量。例如，在一个我们掷硬币十次的实验中，我们可能既关心出现的正面数量，也关心连续最长出现正面的长度。在本节中，我们考虑两个随机变量的设置。 3.1 联合分布和边缘分布假设我们有两个随机变量，一个方法是分别考虑它们。如果我们这样做，我们只需要和。但是如果我们想知道在随机实验的结果中，和同时假设的值，我们需要一个更复杂的结构，称为和的联合累积分布函数，定义如下: 可以证明，通过

0 码力 | 12 页 | 1.17 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台，借助社交业务积累的海量人脸、图片、音乐等数据，专注在人脸、图像、音乐、语音、机器学习等领域开展技术研究，并积极推动研究成果在业务中落地产生价值。关于优图实验室人脸识别图像识别音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸内容识别 – 人脸识别 l 政治敏感人物识别，直播，视频等场景 Ø 上亿级别的人脸检索，秒级的检索速度从黑名单，白名单数据库中返回目标人脸信息。 Ø 技术指标：优图人脸识别通过传统方法和深度学习技术结合，以空间面孔墙和微众银行远程核身为基础，在性能上达到LFW 99.80%。 Ø QQ，微云等：非法设置领导人头像，公众人物，明星等等他人肖像。 Ø 直播，游戏视频等， 2016 优图实时美颜美妆在众多直播，小视频场景大量应用深度学习实现的图像风格化，带动时光相册等一大批风格化软件流行 SACC2017 深度学习 – 相对于传统机器学习方法的突破图像表示：Gabor, SIFT, HOG, LBP, POEM, LGBP, LPQ 图像集表示：Manifold, GMM, Covariance 模式分类：SVM，Boosting，决策树，

0 码力 | 32 页 | 5.17 MB | 1 年前
3

共 61 条前往

页

分类

语言

格式