Keras: 基于 Python 的深度学习库. . . . 8 3.1.2 指定输入数据的尺寸 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8 3.1.3 编译 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9 3.1.4 训练 . . . 33 3.3.16 如何从 Sequential 模型中移除一个层? . . . . . . . . . . . . . . . . . . . . 34 3.3.17 如何在 Keras 中使用预训练的模型? . . . . . . . . . . . . . . . . . . . . . . 35 3.3.18 如何在 Keras 中使用 HDF5 输入? . . . . . . . . 156 12.7 Boston 房价回归数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 157 13 预训练模型 Applications 158 13.1 可用的模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 497 12 计算性能 503 12.1 编译器和解释器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 503 12.1 读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.4 微调预训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644 13.14.5 定义训练函数 . 646 13.14.7 对测试集分类并在Kaggle提交结果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 647 14 自然语言处理:预训练 649 14.1 词嵌入(word2vec) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112梯度弥散和梯度爆炸 11.7 RNN 短时记忆 11.8 LSTM 原理 11.9 LSTM 层使用方法 11.10 GRU 简介 11.11 LSTM/GRU 情感分类问题再战 11.12 预训练的词向量 11.13 参考文献 第 12 章 自编码器 12.1 自编码器原理 12.2 MNIST 图片重建实战 12.3 自编码器变种 12.4 变分自编码器 1.2 机器学习的分类 有监督学习 有监督学习的数据集包含了样本?与样本的标签?,算法模型需要学习到 映射关系??: ? → ?,其中??代表模型函数,?为模型的参数。在训练时,通过计算模型的预 测值??(?)与真实标签?之间的误差来优化网络参数?,使得网络下一次能够预测更精准。常 见的有监督学习有线性回归、逻辑回归、支持向量机、随机森林等。 无监督学习 收集带标签的数据往往代价较为昂贵,对于只有样本 1997 LSTM 2006 DBN深度 置信网络 图 1.8 浅层神经网络发展时间线 1.2.2 深度学习 2006 年,Geoffrey Hinton 等人发现通过逐层预训练的方式可以较好地训练多层神经网 络,并在 MNIST 手写数字图片数据集上取得了优于 SVM 的错误率,开启了第三次人工智 能的复兴。在论文中,Geoffrey Hinton 首次提出了 Deep0 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树样就可能对训练样本学习的“太好”了,把训练样本的一些特点当做所有数据 都具有的一般性质,从而导致过拟合。 剪枝的基本策略有“预剪枝”(prepruning)和“后剪枝”(post-pruning) 通过剪枝处理去掉一些分支来降低过拟合的风险。 20 C4.5的剪枝 预剪枝(prepruning) 预剪枝不仅可以降低过拟合的风险而且还可以 减少训练时间,但另一方面它是基于“贪心” 策略,会带来欠拟合风险。 硬滑 否 11 浅白 硬挺 清脆 模糊 平坦 硬滑 否 12 浅白 蜷缩 浊响 模糊 平坦 软粘 否 13 青绿 稍蜷 浊响 稍糊 凹陷 硬滑 否 训练集 验证集 21 C4.5的剪枝 预剪枝 基于表生成未剪枝的决策树 平坦 纹理 色泽 好瓜 坏瓜 根蒂 色泽 脐部 坏瓜 坏瓜 坏瓜 坏瓜 好瓜 好瓜 好瓜 好瓜 好瓜 乌黑 凹陷 硬挺 稍糊 清晰 节点划分前准确率比划分后准确率高。 22 C4.5的剪枝 预剪枝 平坦 坏瓜 脐部 凹陷 稍凹 ① ④ ③ ② 好瓜 好瓜 验证集精度 脐部=? 划分前:42.9% 划分后:71.4% 预剪枝决策:划分 验证集精度 根蒂=? 划分前:71.4% 划分后:71.4% 预剪枝决策:禁止划分 验证集精度 色泽=? 划分前:71.4% 划分后:57.1% 预剪枝决策:禁止划分 {1,2,3,14}0 码力 | 39 页 | 1.84 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入其相关的负样本),并再次执行相同的过程。 当我们循环遍历整个数据集多次时,嵌入继续得到改进。然后我们可以停 止训练过程,丢弃`Context`矩阵,并使用`Embeddings`矩阵作为下一个任务 的预训练嵌入。 27 4.GloVe 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 28 4.GloVe 2 29 5.情感分类 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT 01 词汇表征和文本数据处理 30 预训练模型的发展 31 预训练模型的发展 32 Transformer 资料来源:《Attention Is All You Need》,Ashish Vaswani et.al 2017 ◼ Transf 章续写) 整段文本 生成 产品 特色 通过随机Mask(即遮挡)数据库文本中的 词语或语段,让神经网络自主学习复原被 遮挡部分,从而拥有“猜测”缺失内容的 能力,产出预训练模型。再通过大规模预 训练模型理解上文或给定条件,从概率层 面推测最符合要求的输出结果。其本质是 借助超大规模的训练参数猜测上下文的过 程 文本风格 主流思路是分离文本属性及文本内容 迁移 隐式方法即使用某类无监督学习学习或强化学0 码力 | 44 页 | 2.36 MB | 1 年前3
机器学习课程-温州大学-14深度学习-Vision Transformer (ViT) Embedding 就是把每个Patch再经过一 个全连接网络压缩成一定 维度的向量。 1.背景知识 7 为什么需要用transformer CNN(如ResNet)是图像分类的最 佳解决方案。 如果预训练的数据集足够大(至少一 亿张图像),则Vision Transformer (ViT)将击败CNN(小幅度) Vision Transformer(ViT)实际上就 是Transformer的encode网络。 25 3.模型训练策略 训练策略 模型在Dataset A上预训练,在Dataset B上精调,在Dataset B上评估 26 数据集介绍 在ImageNet(small)预训练,ViT的效果低于Resnet。 在ImageNet-21K(medium)预训练,ViT的效果接近Resnet。 在JFT(large)预训练,ViT的效果优于Resnet。 3.模型训练策略 270 码力 | 34 页 | 2.78 MB | 1 年前3
阿里云上深度学习建模实践-程孟力 智能标注 自监督学习 多模态预训练 小样本学习 解决方案: 智能标注系统iTags 智能抠图 智能抠图 智能贴合 智能预标注 + 人机协同 解决方案: 自监督学习 Moby: swin-transformer based moco. Image features 推荐模型特征 图像搜索 解决方案: 多模态预训练 Swin transformer based sform er decoder Tran sform er decoder Tran sform er decoder Tran sform er decoder 解决方案: 多模态预训练 Vit based 下游任务: 视频分类 视频打标签 推荐模型特征 解决方案: 小样本学习 小样本结构化模型 在线预测服务(EAS) • 一键部署 • 多模型 •0 码力 | 40 页 | 8.51 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的训练 02 Transformer的工作流程 04 BERT 48 4.BERT NLP 预训练模型的发展 语言模型 word2vec glove fasttext elmo openAI-GPT BERT 词嵌入阶段 预训练模型阶段 2003年 Bengio 2013年 Mikolov 2014年 Jeffrey 2018年2月 Allen Encoder BERT是一个算法模型,它的出现打破了大量的自然语言处 理任务的记录。在BERT的论文发布不久后,Google的研发 团队还开放了该模型的代码,并提供了一些在大量数据集 上预训练好的算法模型下载方式,这使得所有人都可以通 过它来构建一个涉及NLP的算法模型,节约了大量训练语 言模型所需的时间,精力,知识和资源 51 4.BERT BERT—模型结构 特点: 10 码力 | 60 页 | 3.51 MB | 1 年前3
全连接神经网络实战. pytorch 版模块是用来导入数据的:torch.utils.data.Dataset 以及 torch.utils.data.DataLoader。 Dataset 存储样本以及它们的标签等信息,Dataset 可以使用预加载的数据集(例如 mnist), 也可以使用自定义的数据集;而 DataLoader 是把样本进行访问和索引的工具,它实现了迭代器 功能,也就是说它可以依次将 batch_size 数量的样本导出。 前面说过,Dataset 可以存储自定义数据,我们可以继承 Dataset 类,在子类中实现一些固定 功能的函数,这样就相当于封装了自己的数据为 Dataset 类型。为了方便起见,我们先描述如何 使用预加载数据,然后第二章就开始构建神经网络模型。等第四章我们再描述如何自定义数据集。 我们一次写一个完整的程序来把数据可视化一下: from torchvision import datasets from optimizer ’ ] ) epochs = checkpoint [ ’ epoch ’ ] # 再 训 练 1000 轮 (或 者 不 再 训 练, 而 是 直 接 使 用 模 型 来 预 测, 取 决 于 你 的 需 求) f or t in range ( epochs , epochs +1000) : print ( f ”Epoch␣{ t+1}\n−−−−−−−−−−−0 码力 | 29 页 | 1.40 MB | 1 年前3
华为云深度学习在文本分类中的实践-李明磊神经网络NLP里程碑: Word2vec 2013 CNN RNN 2014左右 Attention 2014 Elmo, Bert 2018 解决维度灾难 预训练+微调 注意力机制 端到端训练 符号-向量 8 预训练+微调 大规模语料训练通 用语言模型 在目标语料上微调 语言模型 在目标语料上训练 分类器 … … BERT E[ C E1 T1 E2 T20 码力 | 23 页 | 1.80 MB | 1 年前3
共 25 条
- 1
- 2
- 3













