Keras: 基于 Python 的深度学习库数组。如果从本地框架张量馈送(例如 TensorFlow 数据张量)数 据,x 可以是 None(默认)。 • y: 目标(标签)数据的 Numpy 数组。如果模型中的输出层被命名,你也可以传递一个字 典,将输出层名称映射到 Numpy 数组。如果从本地框架张量馈送(例如 TensorFlow 数据 张量)数据,y 可以是 None(默认)。 • batch_size: 整数或 None。每次提度更新的样本数。如果未指定,默认为 ) + output_shape 如果是函数,它指定整个尺寸为输入尺寸 的一个函数:output_shape = f(input_shape) • arguments: 可选的需要传递给函数的关键字参数。 输入尺寸 任意。当使用此层作为模型中的第一层时,使用参数 input_shape (整数元组,不包括样 本数的轴)。 输出尺寸 由 output_shape 参数指定 (或者在使用 TensorFlow True,则网络将展开,否则将使用符号循环。展开可以 加速 RNN,但它往往会占用更多的内存。展开只适用于短序列。 • input_dim: 输入的维度(整数)。将此层用作模型中的第一层时,此参数(或者,关键字参 数 input_shape)是必需的。 • input_length: 输入序列的长度,在恒定时指定。如果你要在上游连接 Flatten 和 Dense 层, 则需要此参数(如果没有它,无法0 码力 | 257 页 | 1.19 MB | 1 年前3
机器学习课程-温州大学-06机器学习-KNN算法间的实际距离。 电影分类 5 距离度量 曼哈顿距离(Manhattan distance) ?(?, ?) = ? | ?? − ??| 想象你在城市道路里,要从一个十字路口开车 到另外一个十字路口,驾驶距离是两点间的直 线距离吗?显然不是,除非你能穿越大楼。实 际驾驶距离就是这个“曼哈顿距离”。而这也 是曼哈顿距离名称的来源, 曼哈顿距离也称 为城市街区距离(City 汉明距离(Hamming distance) ? ?, ? = 1 ? ? 1??≠?? 汉明距离是使用在数据传输差错控制编码里 面的,汉明距离是一个概念,它表示两个( 相同长度)字对应位不同的数量,我们以表 示两个字之间的汉明距离。对两个字符串进 行异或运算,并统计结果为1的个数,那么 这个数就是汉明距离。 9 距离度量 余弦相似度 两个向量有相同的指向时,余弦相似度的值为1;两0 码力 | 26 页 | 1.60 MB | 1 年前3
机器学习课程-温州大学-13深度学习-TransformerTransformer的工作流程 图中,每一行对应一个词向量的位置编码,所以第一行对应着输入 序列的第一个词。每行包含512个值,每个值介于1和-1之间。我们 已经对它们进行了颜色编码,所以图案是可见的。 20字(行)的位置编码实例,词嵌入 大小为512(列)。你可以看到它从中 间分裂成两半。这是因为左半部分 的值由一个函数(使用正弦)生成, 而右半部分由另一个函数(使用余 弦)生成。然后将它们拼在一起而 当前词出现不只是单单依靠上文或者下文,其 实应该是同时依赖于上下文深层的双向RNN会 互相透露信息。 句子中有15%的词汇被随机mask掉 交给模型 去预测被mask的部分到底是什么 词语的可能性太多了,中文一般是字 如果BERT训练的向量好,那分类自然OK 4.BERT 54 如何训练BERT 方法2:预测两个句子是否应该连在一起 [seq]:两个句子之前的连接符,[cls]:表示要做分类的向量 40 码力 | 60 页 | 3.51 MB | 1 年前3
PyTorch OpenVINO 开发实战系列教程第一篇很多人开始学习深度学习框架面临的第一个问题就是专业术语 理解跟基本的编程概念与传统面向对象编程不一样,这个是初 学者面临的第一个学习障碍。在主流的面向对象编程语言中, 结构化代码最常见的关键字是 if、else、while、for 等关键字, 而在深度学习框架中编程模式主要是基于计算图、张量数据、 自动微分、优化器等组件构成。面向对象编程运行的结果是交 互式可视化的,而深度学习通过训练模型生成模型文件,然后0 码力 | 13 页 | 5.99 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112政编码、快递单号、手机号码等都属于数字图片识别范畴。这里将以数字图片识别为例, 探索如何用机器学习的方法去解决这个问题。 3.1 手写数字图片数据集 机器学习需要从数据中间学习,因此首先需要采集大量的真实样本数据。以手写的数 字图片识别为例,如图 3.1 所示,需要收集较多的由真人书写的 0~9 的数字图片,为了便 于存储和计算,通常把收集的原始图片缩放到某个固定的大小(Size 或 Shape),比如 224 个 像素的行和 为了方便业界统一测试和评估算法,Yann LeCun 等人 (Lecun, Bottou, Bengio, & Haffner, 1998)发布了一个手写数字图片数据集,命名为 MNIST,它包含了 0~9 共 10 种数 字的手写图片,每种数字有 7000 张图片,它们采集自不同书写风格的真实手写图片,数据 预览版202112 第 3 章 分类问题 2 集共 70000 张图片。其中 60000 张图片作为训练集 数据类型 首先来介绍 PyTorch 中的基本数据类型,包含数值类型和布尔类型。虽然字符串类型 在 Python 语言中使用频繁,但是机器学习主要以数值运算为主,因此 PyTorch 并没有对字 符串类型单独提供支持。 4.1.1 数值类型 数值类型的张量是 PyTorch 的主要数据载体,根据维度数来区分,可分为: ❑ 标量(Scalar)。单个的实数,如 1.2, 3.4 等,维度(Dimension)数为0 码力 | 439 页 | 29.91 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文深度学习(Bi-LSTM+CRF) • 多领域通用 • 输入层采用词向量,提升泛化能力 • 循环神经网络(LSTM,GRU等)能学 到一些较远的的上下文特征以及一些 非线性特征 序列标注 字/词向量 Bi-LSTM 会 数 据 开 观 达 去 明 小 LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM LSTM0 码力 | 46 页 | 25.61 MB | 1 年前3
谭国富:深度学习在图像审核的应用过模型调优难度大 人力审核疲劳容易发 生漏过,人力招聘、 管理需要耗费不小成 本 识别种类 完备 节约成本 节省审核 人力 减少人工 漏审 技术诉求:自动识别图片或视频中出现的文 字、二维码、logo等内容以及违规人像、淫 秽、血腥、暴力、极端主义、恐怖主义图像 等,方便平台进行违规处理和风险管控。 业务痛点:面对越来越爆发的安全风险,解决办法门 槛高, 成本高;迫切需要技术解决方案0 码力 | 32 页 | 5.17 MB | 1 年前3
机器学习课程-温州大学-时间序列总结还可以使用datetime构建的日期获取其对应 的数据。 date_time = datetime(2015, 6, 1) date_se[date_time] 15 通过时间戳索引选取子集 还可以在操作索引时,直接使用一个日期字 符串(符合可以被解析的格式)进行获取。 date_se['20150530'] date_se['2018/01/23'] 16 通过时间戳索引选取子集 如果希望获取某年或某个月的数据,则可以0 码力 | 67 页 | 1.30 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结#上面方法对于数组的切片都 是共享原数组的储存空间的。 21 多维数组 如果我们想创立原数组的副本,我们可以用整数元组,列表,整数数组, 布尔数组进行切片。 22 结构数组 C语言中可以通过struct关键字定义结构类型。NumPy中也有类似的结构数组。 > persontype = np.dtype({ 'names':['name', 'age', 'weight'], 'formats':['S30'0 码力 | 49 页 | 1.52 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入Transformer出现以后,迅速取代了RNN系列变种,跻身主流模型架构基 础。(RNN缺陷正在于流水线式的顺序计算) 图:Transformer模型架构 33 首先通过词嵌入(Word Embedding)将字、词、 句进行区分,然后基于特征评分、序列标注、 分类模型等提取内容特征计算相关文本单元权 重其次洗择相应的文本单元子集组成摘要候洗 集,完成内容选择,最后针对字数要求等限定 条件,对候选集的内容进行整理形成最终摘要,0 码力 | 44 页 | 2.36 MB | 1 年前3
共 13 条
- 1
- 2













