微博在线机器学习和深度学习实践-黄波微博在线机器学习和深度学习实践 黄波 @黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤 模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-02深度学习-神经网络的编程基础1 2023年03月 深度学习-神经网络的编程基础 黄海广 副教授 2 本章目录 01 二分类与逻辑回归 02 梯度下降 03 计算图 04 向量化 3 1.二分类与逻辑回归 02 梯度下降 01 二分类与逻辑回归 03 计算图 04 向量化 4 符号定义 ?:表示一个??维数据,为输入数 据,维度为(??, 1); 用非向量化实现,? = ??. ?????(?, 1), 并且通过两层循环???(?): ???(?):,得到 ?[?] = ?[?] + ?[?][?] ∗ ?[?] 。现在就有了 ? 和 ? 的两层循环,这就是非向量化。 向量化方式就可以用? = ??. ???(?, ?), 25 4.向量化-Python广播 26 参考文献 1. IAN GOODFELLOW等,《深度学习》,人民邮电出版社,20170 码力 | 27 页 | 1.54 MB | 1 年前3
机器学习课程-温州大学-03深度学习-PyTorch入门torch.float32 查看Tensor维度和形状 tensor1.shape #查看形状或尺寸 tensor1.ndim #查看维度 查看Tensor是否存储在GPU上 tensor1.is_cuda 查看Tensor的梯度 tensor1.grad 1.Tensors张量的概念 7 Tensor在CPU和GPU之间转换,以及numpy之间的转换 matmul(input, other, out=None)乘法首先是进行后两位矩阵乘法得 到(99×11)×(11×99)⇒(99×99),然后分析两个参数的batch size分别是 (1000×500) 和 500, 可以广播成为 (1000×500), 因此最终输出的维度是 (1000×500×99×99)。 14 1.Tensors张量乘法 4. 矩阵逐元素(Element-wise)乘法 torch out=None) 其中 other 乘数可以是标量,也可以是任意维度的矩阵 , 只要满足最终相乘是可以broadcast的即可。 15 1.Tensors张量乘法 5. 两个运算符 @ 和 * @:矩阵乘法,自动执行适合的矩阵乘法函数 *:element-wise乘法 16 2. Autograd自动求导 01 Tensors张量 02 Autograd自动求导0 码力 | 40 页 | 1.64 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言预处理 对图像做一 种或一些预 处理,使图 像满足后继 处理的要 求 ,如:二次 取样保证图 像坐标的正 确,平滑、 去噪等 特征提取 从图像中提取 各种复杂度的 特征,如:线 ,边缘提取和 脊侦测,边角 检测、斑点检 测等局部化的 特征点检测 检测/分割 对图像进行分割 ,提取有价值的 内容,用于后继 处理, 如:筛 选特征点,分割 含有特定目标的 部分 高级处理 验证得到的 ,而且错误率高。图像识别技术(OCR)的出 现大大提升了翻译的效率和准确度,用户通 过简单的拍照、截图或划线就能得到准确的 翻译结果。 体育赛事 计算机视觉还有助于比赛和策略分 析、球员表现和评级,以及跟踪体育 节目中品牌赞助的可见性。 农业 半自动联合收割机可以利用人工智能 和计算机视觉来分析粮食品质,并找 出农业机械穿过作物的最佳路径。另 外也可用来识别杂草和作物,有效减 少除草剂的使用量。 全、更智能、更有效地运行,比如预 测性维护设备故障,对包装和产品质 量进行监控,并通过计算机视觉减少 不合格产品。 交通 自动驾驶汽车需要计算机视觉。特斯拉 (Tesla)、宝马(BMW)、沃尔沃(Volvo)和奥迪 (Audi)等汽车制造商Y已经通过摄像头、激光 雷达、雷达和超声波传感器从环境中获取图 像,研发自动驾驶汽车来探测目标、车道标 志和交通信号,从而安全驾驶。 安防 中国在使用人脸识别技术方面无疑处于领先地0 码力 | 80 页 | 5.38 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入1 2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT − ?woman = −1 0.01 0.03 0.09 − 1 0.02 0.02 0.01 = −2 −0.01 0.01 0.08 ≈ −2 0 0 0 这个结果表示,man和woman主要的差异是gender(性别)上的差异 类似的,假如你用?king减去?queen,最后也会得到一样的结果 12 2.词嵌入 嵌入矩阵 13 2.词嵌入 嵌入矩阵 14 3 000维度的softmax,因为计算成本很高, 而是把它转变为10,000个二分类问题,每个都很容易计算 ,每次迭代我们要做的只是训练它们其中的5个,一般而言 就是? + 1个,其中?个负样本和1个正样本。这也是为什么 这个算法计算成本更低,因为只需更新? + 1个逻辑单元, ? + 1个二分类问题,相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? ??0 码力 | 44 页 | 2.36 MB | 1 年前3
《TensorFlow 2项目进阶实战》2-快速上手篇:动⼿训练模型和部署服务TensorFlow 2 项目实战进阶 扫码试看/订阅 《TensorFlow 2 项目进阶实战》视频课程 快速上手篇:动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍0 码力 | 52 页 | 7.99 MB | 1 年前3
动手学深度学习 v2.0广播机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.1.4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.5 节省内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.4.1 导数和微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4.2 偏导数 . . 2.6.2 处理多个随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 期望和方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7 查阅文档 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112数学符号推导,其中涉及到少量的概率与统计、线性代数、微积分等数学知识,一般要求读 者对这些数学知识有初步印象或了解即可。比起理论基础,读者需要有少量的编程经验,特 别是 Python 语言编程经验,显得更加重要,因为本书更侧重于实用性,而不是堆砌公式。 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 4 个部份:第 1~3 章为第 1 部分,主要介绍人工智能的初 部分,主要介绍神经网络的核心理论和共性知识,让读者理解深 度学习的本质;第 10~15 章为模型算法应用部分,主要介绍常见的算法与模型,让读者能够 学有所用。 在本书中编写时,很多英文词汇尚无法在业界找到一个共识翻译名,因此作者备注翻译 的英文原文,供读者参考,同时也方便读者日后阅读相关英文文献时,不至于感到陌生。 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共 前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 龙良曲 2021 年 10 月 19 日 预览版2021120 码力 | 439 页 | 29.91 MB | 1 年前3
机器学习课程-温州大学-numpy使用总结它包含很多功能: · 创建n维数组(矩阵) · 对数组进行函数运算 · 数值积分 · 线性代数运算 · 傅里叶变换 · 随机数产生 ······ NumPy是什么? 5 NumPy提供了许多高级的数值编程工具,如:矩阵数据类型、矢量处 理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大 型金融公司使用,以及核心的科学计算组织如:Lawrence Livermore, NASA 用其处理一些本来使用 C++,Fortran 或 Matlab 等所做的任务。 NumPy是什么? 6 标准的Python中用list(列表)保存值,可以当做数组使用,但因为列表 中的元素可以是任何对象,所以浪费了CPU运算时间和内存。 NumPy诞生为了弥补这些缺陷。它提供了两种基本的对象: ndarray:全称(n-dimensional array object)是储存单一数据类型的 多维数组。 ufunc:全称(universal = np.array([1, 2, 3, 4]) > d = a.reshape((2,2)) array([[1, 2], [3, 4]]) 18 ndarray的切片 ndarray的切片和list是一样的。 > a = np.arange(10) > a array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9]) a[5] a[3:5] a[:5]0 码力 | 49 页 | 1.52 MB | 1 年前3
机器学习课程-温州大学-13机器学习-人工神经网络BP算法 4 1.人工神经网络发展历史 发展历史 1943年,心理学家McCulloch和逻辑学家Pitts建立神经网络的数学模型, MP模型 神经元数学模型 神经元生理结构 输入层 输出层 隐藏层 5 1.人工神经网络发展历史 1960年代,人工网络得到了进一步地发展 感知机和自适应线性元件等被提出。 M.Minsky仔细分析了以感知机为代表的神 经网络的局限性,指出了感知机不能解决 ,引入了计算能量概念,给出了网 络稳定性判断。 离散Hopfield神经网络模型 1T 2T IT N T … … 1x 2x ix nx 7 1.人工神经网络发展历史 1986年,Rumelhart和 McClelland为首的科学家提出了 BP(Back Propagation)神经 网络的概念,是一种按照误差逆 向传播算法训练的多层前馈神经 网络,目前是应用最广泛的神经 网络。 BP神经网络模型 ELM),是由黄广斌提出的用于处理单隐层 神经网络的算法 优点: 1.学习精度有保证 2.学习速度快 随机初始化输入权重??和偏置 ,只求解输出权重值??。 1 nx 1 ? ? i n 1 i L 1 L ny 1个输出 层神经元 ?个隐藏 层神经元 ?个输入 层神经元 9 2.感知器算法 01 发展历史 02 感知机算法 03 BP算法 100 码力 | 29 页 | 1.60 MB | 1 年前3
共 76 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













