TensorFlow on Yarn:深度学习遇上大数据深度学习 + 大数据 TensorFlow on Yarn 李远策 2017年4月17日 内容大纲 Ø TensorFlow使用现状及痛点� Ø TensorFlow on Yarn设计� Ø TensorFlow on Yarn技术细节揭秘� Ø 深度学习平台演进及SparkFlow介绍� 背景 坐标:360-系统部-⼤数据团队� 专业:Yarn、Spark、MR、HDFS 后序、递归、深度优先分配算法 深度学习平台演进 SparkFlow介绍 SparkFlow:360系统部⼤数据团队设计的TensorFlow on Spark解决⽅案� • Coordinator负责协调生成ClusterSpec(扩展的TensorFlow gRPC server) • Worker通过读取RDD获取训练样本 • RDD的数据cache到内存或者磁盘供多次迭代训练使用 SparkFlow介绍0 码力 | 32 页 | 4.06 MB | 1 年前3
 机器学习课程-温州大学-15深度学习-GAN2023年06月 深度学习-生成式深度学习 黄海广 副教授 2 03 GAN 的应用 本章目录 01 生成式深度学习简介 02 GAN的理论与实现模型 04 GAN的思考与前景 3 03 GAN 的应用 01 生成式深度学习简介 02 GAN的理论与实现模型 04 GAN的思考与前景 1.生成式深度学习简介 4  深度学习中常见生成式模型 深度学习中常见生成式模型  自编码(AE)  其隐变量z是一个单值映射:z=f(x)  变分自编码(VAE)  其隐变量z是一个正态分布的采样  生成式对抗网络(GAN)  条件生成式对抗网络(CGAN)  在生成器和判别器中添加某一标签信息  深度卷积生成式对抗网络(DCGAN)  判别器和生成器都使用了卷积神经网络(CNN)来替代GAN 中的多层感知机  为了使整个网络可微,拿掉了CNN 中的池化层  将全连接层以全局池化层替代以减轻计算量。 1.生成式深度学习简介 5 自编码(AE)结构图 1.生成式深度学习简介 6 变分自编码(VAE)结构图 1.生成式深度学习简介 7 变分自编码(VAE)生成图像 1.生成式深度学习简介 8 03 GAN 的应用 01 生成式深度学习简介 02 GAN的理论与实现模型 04 GAN的思考与前景0 码力 | 35 页 | 1.55 MB | 1 年前3
 【PyTorch深度学习-龙龙老师】-测试版20211212.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 12.5 VAE 实战 12.6 参考文献 第 13 章 生成对抗网络 13.1 博弈学习实例 13.2 GAN 原理 13.3 DCGAN 实战 13.4 GAN 变种 预览版202112 13.5 纳什均衡 13.6 GAN ?: ? → ?,称为自监督学习(Self-supervised Learning)。在训练时,通过计算模型的预测值??(?)与自身?之间的误差来优化网络参数?。 常见的无监督学习算法有自编码器、生成对抗网络等。 强化学习 也称为增强学习,通过与环境进行交互来学习解决问题的策略的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 预览版202112 除了有监督学习领域取得了惊人的成果,在无监督学习和强化学习领域也取得了巨大 的成绩。2014 年,Ian Goodfellow 提出了生成对抗网络,通过对抗训练的方式学习样本的 真实分布,从而生成逼近度较高的样本。此后,大量的生成对抗网络模型相继被提出,最 新的图片生成效果已经达到了肉眼难辨真伪的逼真度。2016 年,DeepMind 公司应用深度 神经网络到强化学习领域,提出了 DQN 算法,在 Atari0 码力 | 439 页 | 29.91 MB | 1 年前3
 Keras: 基于 Python 的深度学习库y_batch) 只需一行代码就能评估模型性能: loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) 或者对新的数据生成预测: classes = model.predict(x_test, batch_size=128) 构建一个问答系统,一个图像分类模型,一个神经图灵机,或者其他的任何模型,就是这么 的快。 更深入的教程,请查看: • 开始使用 Sequential 顺序模型 • 开始使用函数式 API 在代码仓库的 examples 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 activation='sigmoid')) model.compile(optimizer='rmsprop', loss='binary_crossentropy', metrics=['accuracy']) # 生成虚拟数据 import numpy as np data = np.random.random((1000, 100)) labels = np.random.randint(2, size=(10000 码力 | 257 页 | 1.19 MB | 1 年前3
 动手学深度学习 v2.03.2 线性回归的从零开始实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.1 生成数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95 3.2.2 读取数据集 线性回归的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3.1 生成数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101 3.3.2 读取数据集 10.2 注意力汇聚:Nadaraya‐Watson 核回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386 10.2.1 生成数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 386 10.2.2 平均汇聚0 码力 | 797 页 | 29.45 MB | 1 年前3
 机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Word2Vec 语言模型的训练机制就是这样 1.我们获得了大量文本数据(例如,所 有维基百科文章)。然后 2.我们有一个窗口(比如说三个单词) ,我们会对所有文本进行滑动。 3.滑动窗口为我们的模型生成训练样本 16 3.Word2Vec (下图左边为CBOW,右边为Skip-Gram) CBOW对小型数据库比较合适,而Skip-Gram在大型语料中表现更好。 17 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2.使用这些高质量的嵌入来训练语言模型(进行下一个单词 预测)。 19 3.Word2Vec 负采样 并不是每次迭代都训练全部10,000个,我们只训练其中 集,完成内容选择,最后针对字数要求等限定 条件,对候选集的内容进行整理形成最终摘要, 完成内容组织。其细分路径又包含生成式文本 摘 要(AATS),即形成抽象认知并创造新词灵活 概括 ,和抽取式文本摘要(EATS),即直接抽取 原始素材并拼接成简单概要 摘要/标 题生成 内容续写 (例如文 章续写) 整段文本 生成 产品 特色 通过随机Mask(即遮挡)数据库文本中的 词语或语段,让神经网络自主学习复原被0 码力 | 44 页 | 2.36 MB | 1 年前3
 Qcon北京2018-《文本智能处理的深度学习技术》-陈运文达观专注于人工智能中的文本处理细分领域 文本处理任务 什么是NLP 概念:Natural Language Processing 自然语言处理 目的:让机器理解人类的语言,是人工智能领域的重要 分支,用于分析、理解和生成自然语言,方便人机交流 应用:智能问答,机器翻译,文本分类,文本摘要,标 签提取,情感分析,主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今 以机器翻译为开端,作 PDF格式文本数据丢失段落信息 使用深度学习进行段落分析 生成式摘要 生成式摘要的深度学习网络基本结构 l 编码器/解码器结构,都是神经网络结构 l 输入的原文经过编码器编码变成向量 l 解码器从向量里面提取关键信息,组合成生成式摘要 深度学习内部注意力机制的引入 l 内部注意力机制在解码器里面做 l 关注已生成词,解决长序列摘要生成时,个别字词重复出现的问题 Bi_LSTM Bi_LSTM Reward 文本摘要候选集 生成 更新模型 反馈 增强学习优化 深度学习模型 评分 强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布:MLE(最大似然),有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价:不可导,无法采用梯度下降的方式训练,考虑强化学习,鼓励reward高的模型,通过 给与反馈来更新模型。最终训练得到表现最好的模型。 生成式摘要 Bi_LSTM0 码力 | 46 页 | 25.61 MB | 1 年前3
 《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 准备模型开发环境 • 生成验证码数据集 • 输入与输出数据处理 • 模型结构设计 • 模型损失函数设计 • 模型训练过程分析 • 模型部署与效果演示 第六部分 目录 准备模型开发环境 第三方依赖包 数据集生成 • Pillow • captcha 模型可视化 • pydot 模型服务部署 • flask 核心图像库旨在快速访问以几种基本像素格式存储的数据, 它应该为一般的图像处理工 具提供坚实的基础。 https://github.com/python-pillow/Pillow captcha Catpcha 是一个生成图像和音频验证码的开源工具库。 https://github.com/lepture/captcha from captcha.image import ImageCaptcha from captcha com/pallets/flask 生成验证码数据集 验证码(CAPTCHA)简介 全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPTCHA测试中,作为服务器的计算机会自动生成一 个0 码力 | 51 页 | 2.73 MB | 1 年前3
 机器学习课程-温州大学-04机器学习-朴素贝叶斯6 1. 贝叶斯方法 贝叶斯公式 后验概率 似然度 先验概率 边际似然度 ?(?|?) = ?(?, ?) ?(?) = ?(?|?)?(?) ?(?) 朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率 分布 ?(?, ?),然后求得后验概率分布?(?|?)。 具体来说,利用训练数据学习?(?|?)和?(?)的估计,得到联合概率分布: ?(?, ?)=?(?| ) 7 2.朴素贝叶斯原理 01 贝叶斯方法 02 朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 8 判别模型和生成模型 判别模型(Discriminative Model) 生成模型(Generative Model) 由数据直接学习决策函数Y=f(X)或者条件概率分 布P(Y|X)作为预测的模型,即判别模型。基本思 想是有限样本条件下建立判别函数,不考虑样本 朴素贝叶斯、HMM、深度信念网络(DBN)…… 监督学习方法又分 生成方法(Generative approach)和判别方法(Discriminative approach) 所学到的模型分别称为 生成模型(Generative Model)和判别模型(Discriminative Model)。 2.朴素贝叶斯原理 9 2.朴素贝叶斯原理 1.朴素贝叶斯法是典型的生成学习方法。 生成方法由训练数据学习联合概率分布 ?(0 码力 | 31 页 | 1.13 MB | 1 年前3
 机器学习课程-温州大学-12机器学习-关联规则=3/4 9 2.Apriori算法 01 关联规则概述 02 Apriori 算法 03 FP-Growth算法 10 2.Apriori算法 Apriori算法利用频繁项集生成关联规则。它基于频繁项集的子集也 必须是频繁项集的概念。 频繁项集是支持值大于阈值(support)的项集。 Apriori算法就是基于一个先验: 如果某个项集是频繁的,那么它的所有子集也是频繁的。 得到频繁k项集。如果得到的频繁k项集 为空,则直接返回频繁k-1项集的集合作为算法结果,算法结束。如果得到的频繁k项集 只有一项,则直接返回频繁k项集的集合作为算法结果,算法结束。 c) 基于频繁k项集,连接生成候选频繁k+1项集。 3) 令k=k+1,转入步骤2。 12 2.Apriori算法 算法案例 第一次迭代:假设支持度阈值为2,创建大小为1的项集并计算它们的支持度。 订单编号 项目 T1 师在2000年提出的关联分析算法,它采 取如下分治策略:将提供频繁项集的数据库压缩到一棵频繁模式树(FP-Tree), 但仍保留项集关联信息。 该算法是对Apriori方法的改进。生成一个频繁模式而不需要生成候选模式。 FP-growth算法以树的形式表示数据库,称为频繁模式树或FP-tree。 此树结构将保持项集之间的关联。数据库使用一个频繁项进行分段。这个片段被称 为“模式片段”。0 码力 | 49 页 | 1.41 MB | 1 年前3
共 36 条
- 1
 - 2
 - 3
 - 4
 













