机器学习课程-温州大学-特征工程相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 成功的机器学习应用不是 拥有最好的算法,而是拥 有最多的数据! 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 到一组具有明显物理或统计 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的 特征来创建新的特征 2. 特征构建 在原始数据集中的特征0 码力 | 38 页 | 1.28 MB | 1 年前3
动手学深度学习 v2.02 多元梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444 11.3.3 自适应方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 446 11.4 随机梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 549 13.1.1 常用的图像增广方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 550 13.1.2 使用图像增广进行训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 624 13.12.1 方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 625 13.12.20 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 4 个部份:第 1~3 章为第 1 部分,主要介绍人工智能的初 步认知,并引出相关问题;第 4~5 章为第 2 部分,主要介绍 思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 第 2 章 回归问题 2.1 神经元模型 2.2 优化方法 2.3 线性模型实战 2.4 线性回归 2.5 参考文献 第 3 章 分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.100 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库https://github.com/wanzhenchn/keras-docs-zh。 感谢 keras-team 所做的中文翻译工作,本文档制作基于此处。 严正声明:本文档可免费用于学习和科学研究,可自由传播,但切勿擅自用于商业用途,由 此引发一切后果贡献者概不负责。 The main reason of organizing PDF version based the Chinese Keras Sequential 属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 目录 III 4.2.3 Sequential 模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41 4.2.3.1 compile . . . . . . . . 3.2 Model 的实用属性 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3 Model 类模型方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49 4.3.3.1 compile . . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇1. Pytorch 介绍与基础知识 1.1 Pytorch 介绍 Pytorch 是开放源代码的机器学习框架,目的是加速从研究 原型到产品开发的过程。其 SDK 主要基于 Python 语言,而 Python 语言作为流行的人工智能开发语言一直很受研究者与 开发者的欢迎。其模型训练支持CPU与GPU、支持分布式训练、 云部署、针对深度学习特定领域有不同的丰富的扩展库。 1.1.1 之后的 Pytorch。由于 Pytorch 吸 取了之前一些深度学习框架优点,开发难度大大降低、很容易 构建各种深度学习模型并实现分布式的训练,因此一发布就引 发学术界的追捧热潮,成为深度学习研究者与爱好者的首选开 发工具。在 pytorch 发布之后两年的 2018 年 facebook 又把 caffe2 项目整合到 pytorch 框架中,这样 pytorch 就进一步 整合原来 捧热潮,可以说“出道即巅峰”。Pytorch 虽然来自脸书实验室, 但是它也吸引外部公司包括特斯拉、优步、亚马逊、微软、阿 里等积极支持,其平缓的学习曲线,简洁方便的函数与模型构 建在短时间内吸引了大量学术研究者与工业界开发者的追捧。 当前无论是在学术界还是工业界 Pytorch 已经是主流深度学习 框架之一,而且大有后来居上之势,因此随着人工智能赋能各 行各业,Pytorch 框架必然会更加得到开发者的青睐,成为人0 码力 | 13 页 | 5.99 MB | 1 年前3
13. 杨赛赛-基于深度学习的多维时间序列预测在数据机房中的应用PYCON CHINA 基于深度学习的多维时间序列 预测在数据机房中的应用 目 录 1 背景介绍 2 研究目标 3 研究内容 4 后续工作 1. 背景介绍 数据机房面临的能耗问题 数据机房面临电量消耗巨大的问题 空调是数据机房中电量消耗最大的设备 空调为什么那么耗电?怎么优化节能? 低效的 冷却装 置 服务主 机工作 发热 影响空 调耗电 量原因 建筑材料 隔热和散 存在延迟 多 维 感 知 温 度 预 测 控 制 2. 研究目标 对数据机房的温度进行预测 ⚫ 根据机房的历史运行数据变化预测未来 XX 分钟机房的温度值,从而实现空调的预测控制。 风机状态 服务负载 天气状况 室外温度 室外湿度 门禁状态 时序数据 温度预测 预测控制 节能调节 3. 研究内容 ⚫ 时间序列预测方法的比较 传统时间序列预测 ⚫ 对单个维度历史信息进行 预测 代表算法有RNN,LSTM 混合多维时间序列预测 ⚫ 提取多维序列之间更加复杂 的关系 ⚫ 提取维度之间空间依赖关系, 长短期依赖关系 ⚫ 算法有LSTNet,TPA-LSTM 多维时间序列预测方法解决机房温度预测 对数据包含的信息提取能力越来越强 选择 LSTNet 作为温度预测建模算法 ⚫ Convolutional Layer 捕捉时间维度上的短期依赖和维度之间的空间依赖关系 ⚫0 码力 | 17 页 | 2.49 MB | 1 年前3
机器学习课程-温州大学-15深度学习-GAN(二)生成式模型的积累 (三)神经网络的深化 (四)对抗思想的成功 GAN的概念简介及提出背景 2. GAN的理论与实现模型 12 GAN的理论与实现模型 GAN的基本原理 GAN的学习方法 GAN的衍生模型 2. GAN的理论与实现模型 13 GAN 的核心思想来源于博弈论的纳什均衡。 它设定参与游戏双方分别为一个生成器 (Generator) 和一个判别器(Discriminator),生成器的目的是尽 GAN的理论与实现模型 14 生成式对抗网络(GAN)结构图 2. GAN的理论与实现模型 15 GAN的学习方法 GAN的理论与实现模型 首先, 在给定生成器 G 的情况下, 我们考虑最优化判别器 D. 2. GAN的理论与实现模型 16 GAN的学习方法 总之, 对于 GAN 的学习过程, 我们需要训练模型 D 来最大化判别数据 来源于真实数据或者伪数据分布 G(z) 的准确率 的准确率, 同时, 我们需要训练 模型 G来最小化 log(1 − D(G(z))). 这里可以采用交替优化的方法: 先固定生成器 G, 优化判别器 D, 使得 D 的判别准确率最大化; 然后固定判别器 D, 优化生成器 G, 使得 D 的 判别准确率最小化. 当且仅当????? = ??时达到全局最优解. 训练 GAN 时, 同一轮参数更新中, 一般对 D 的参数更新 k 次再对 G的参数更新0 码力 | 35 页 | 1.55 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2.使用这些高质量的嵌入来训练语言模型(进行下一个单词 预测)。 19 3.Word2Vec 负采样 并不是每次迭代都训练全部10 入词,我们查看Embedding矩阵。对于上下文单词,我们查看Context矩 阵(即使两个矩阵都在我们的词汇表中嵌入了每个单词)。 23 3.Word2Vec 训练流程 现在我们需要一种方法将这些分数转化为看起来像概率的东西 : 使用sigmoid函数把概率转换为0和1。 然后,我们计算输入嵌入与每个上下文嵌入的点积。在每种情况 下,会产生一个数字,该数字表示输入和上下文嵌入的相似性。 能力,产出预训练模型。再通过大规模预 训练模型理解上文或给定条件,从概率层 面推测最符合要求的输出结果。其本质是 借助超大规模的训练参数猜测上下文的过 程 文本风格 主流思路是分离文本属性及文本内容 迁移 隐式方法即使用某类无监督学习学习或强化学 习模式将文本属性及内容自动分离,常见的有 生成对抗方式,即通过GAN实现目标属性和 文本量性完全由不同的编码控制的状态。 对话式文本生成适用于智能客服等任务型和闲聊型机器人等0 码力 | 44 页 | 2.36 MB | 1 年前3
机器学习课程-温州大学-02-数学基础回顾-2.CS229-Prob4.3 多元高斯分布 5. 其他资源 概率论复习和参考 概率论是对不确定性的研究。通过这门课,我们将依靠概率论中的概念来推导机器学习算法。这篇笔记 试图涵盖适用于CS229的概率论基础。概率论的数学理论非常复杂,并且涉及到“分析”的一个分支:测 度论。在这篇笔记中,我们提供了概率的一些基本处理方法,但是不会涉及到这些更复杂的细节。 1. 概率的基本要素 为了定义集合上的概率,我们需要一些基本元素, 通过使用这个函数,我们可以计算任意事件发生的概率。图1显示了一个样本CDF函数。 性质: 2.2 概率质量函数 当随机变量 取有限种可能值(即, 是离散随机变量)时,表示与随机变量相关联的概率度量的更简单 的方法是直接指定随机变量可以假设的每个值的概率。特别地,概率质量函数(PMF)是函数 ,这样: 在离散随机变量的情况下,我们使用符号 表示随机变量 可能假设的一组可能值。例如,如果 是一个随机变量,表示十次投掷硬币中的正面数,那么 个感兴趣的量。例如,在一个我们掷硬币十次的实验中,我们可能既关心 出现的正面数量,也 关心 连续最长出现正面的长度。在本节中,我们考虑两个随机变量的设置。 3.1 联合分布和边缘分布 假设我们有两个随机变量,一个方法是分别考虑它们。如果我们这样做,我们只需要 和 。 但是如果我们想知道在随机实验的结果中, 和 同时假设的值,我们需要一个更复杂的结构,称为 和 的联合累积分布函数,定义如下: 可以证明,通过0 码力 | 12 页 | 1.17 MB | 1 年前3
谭国富:深度学习在图像审核的应用http://open.youtu.qq.com SACC2017 优图团队立足于社交网络大平台,借助社交业务积累 的海量人脸、图片、音乐等数据,专注在人脸、图像、 音乐、语音、机器学习等领域开展技术研究,并积极 推动研究成果在业务中落地产生价值。 关于优图实验室 人脸识别 图像识别 音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 内容识别 – 人脸识别 l 政治敏感人物识别, 直播, 视频等场景 Ø 上亿级别的人脸检索,秒级的检索速度从黑名 单,白名单数据库中返回目标人脸信息。 Ø 技术指标:优图人脸识别通过传统方法和深度 学习技术结合,以空间面孔墙和微众银行远程 核身为基础,在性能上达到LFW 99.80%。 Ø QQ,微云等: 非法设置领导人头像, 公众人 物, 明星等等他人肖像。 Ø 直播,游戏视频等, 2016 优图实时 美颜美妆 在众多直 播,小视 频场景大 量应用 深度学习实现 的图像风格化, 带动时光相册 等一大批风格 化软件流行 SACC2017 深度学习 – 相对于传统机器学习方法的突破 图像表示:Gabor, SIFT, HOG, LBP, POEM, LGBP, LPQ 图像集表示:Manifold, GMM, Covariance 模式分类:SVM,Boosting,决策树,0 码力 | 32 页 | 5.17 MB | 1 年前3
共 61 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7













