微博在线机器学习和深度学习实践-黄波微博在线机器学习和深度学习实践 黄波 @黄波_WB 资深技术专家 2019.5 目录 1.推荐篇 2.平台篇 3.总结篇 1 目录 • 推荐场景 • 推荐 • 在线机器学习 • 深度学习 • 平台背景 • 平台架构 • 平台效果 • 微博技术里程碑 • 微博业务生态 推荐篇 APPLICATION 推荐场景、在线机器学习和深度学习 11 1 推荐场景 • • 信息流 热门流 视频流 关系流 • 推荐流 图片推荐流 正文推荐流 视频推荐流 1 推荐场景 • 推荐 • 在特定场景下,根据用户行为和特点,向用户推荐感兴趣的对象集 • 模型: • 趋势 • 实时化:在线机器学习 • 深度化:深度学习 • 平台化:机器学习平台 2 推荐 • 实时化 • 特征实时化:更及时反馈用户行为,更细粒度刻画用户 • 模型实时化:根据线上样本实时训练模型,及时地反映对象的线上变化 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤 模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD 、 FTRL 、 Adagrad等优化算法0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入1 2023年05月 深度学习-自然语言处理和词嵌入 黄海广 副教授 2 03 Word2Vec 04 GloVe 本章目录 01 词汇表征和文本数据处理 02 词嵌入 05 GPT 3 1.词汇表征 01 词汇表征和文本数据处理 03 Word2Vec 04 GloVe 02 词嵌入 05 GPT − ?woman = −1 0.01 0.03 0.09 − 1 0.02 0.02 0.01 = −2 −0.01 0.01 0.08 ≈ −2 0 0 0 这个结果表示,man和woman主要的差异是gender(性别)上的差异 类似的,假如你用?king减去?queen,最后也会得到一样的结果 12 2.词嵌入 嵌入矩阵 13 2.词嵌入 嵌入矩阵 14 3 18 3.Word2Vec 负采样 计算的角度来看,SkipGram非常消耗资源:尤其是我们将在 数据集中为每个训练样本做一次(很可能数千万次)。我们 需要做一些事情来提高效率。 一种方法是将目标分成两个步骤: 1.生成高质量的单词嵌入(不要担心下一个单词预测)。 2.使用这些高质量的嵌入来训练语言模型(进行下一个单词 预测)。 19 3.Word2Vec 负采样 并不是每次迭代都训练全部100 码力 | 44 页 | 2.36 MB | 1 年前3
《TensorFlow 2项目进阶实战》2-快速上手篇:动⼿训练模型和部署服务TensorFlow 2 项目实战进阶 扫码试看/订阅 《TensorFlow 2 项目进阶实战》视频课程 快速上手篇:动⼿训练模型和部署服务 • TensorFlow 2 开发环境搭建 • 使用 tf.keras.datasets 加载数据 • 使用 tf.data.Dataset 加载数据 • 使用 tf.keras.Model 管理模型 • Fashion MNIST 数据集介绍0 码力 | 52 页 | 7.99 MB | 1 年前3
AI大模型千问 qwen 中文文档etc. 最新版本 Qwen1.5 有以下特点: • 6 种模型规模,包括 0.5B、1.8B、4B、7B、14B 和 72B; • 针对每种尺寸提供基础模型和 Chat 模型,并确保聊天模型按照人类偏好进行校准; • 对基础模型和 Chat 模型的多语言支持 • 基础模型和聊天模型都支持多种语言; • 支持工具调用、RAG(检索增强文本生成)、角色扮演、AI Agent 等; 想了解更多信息,欢迎访问: 想了解更多信息,欢迎访问: • 博客 • GitHub • Hugging Face • ModelScope • Qwen1.5 Collection 加入社区,加入 Discord 和 微信群 。很期待见到你们! 快速开始 1 Qwen 2 快速开始 CHAPTER1 文档 1.1 安装 要快速上手 Qwen1.5,您可以从 Hugging Face 安装 transformers com/huggingface/transformers 我们建议您使用 Python3.8 及以上版本和 Pytorch 2.0 及以上版本。 3 Qwen 1.2 快速开始 本指南帮助您快速上手 Qwen1.5 的使用,并提供了如下示例:Hugging Face Transformers 以及 ModelScope 和 vLLM 在部署时的应用实例。 1.2.1 Hugging Face Transformers0 码力 | 56 页 | 835.78 KB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 4 个部份:第 1~3 章为第 1 部分,主要介绍人工智能的初 步认知,并引出相关问题;第 4~5 章为第 2 部分,主要介绍 PyTorch 相关基础,为后续算法 实现铺垫;第 6~9 章为第 3 部分,主要介绍神经网络的核心理论和共性知识,让读者理解深 度学习的本质;第 尽管每天都有深度学习相关算法论文的发布,但是作者相信,深度学习的核心思想和基 础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识,但是仍然有很 多算法无法涵盖,读者学习完本书后,可以自行搜索相关方向的研究论文或资料,进一步学 习。 深度学习是一个非常前沿和广袤的研究领域,鲜有人士能够对每一个研究方向都有深刻 的理解。作者自认才疏学浅,略懂皮毛,同时也限于时间和篇幅关系,难免出现理解偏差甚 至错缪之处,若能大方指出,作者将及时修正,不胜感激。 者快速上手深度学习算法,另一方面也能汇聚众多行业专家们的力量,修正测试版中的谬误 之处,让本书变得更为完善。 本书虽然免费开放电子版,供个人学习使用,但是未经许可,不能用于任何个人或者企 业的商业用途,违法盗版和销售,必究其法律责任。 龙龙老师 2021 年 10 月 19 日 预览版202112 配 套 资 源 ❑ 提交错误或者修改等反馈意见,请在 Github Issues 页面提交:0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库版本请访问: https://github.com/wanzhenchn/keras-docs-zh。 感谢 keras-team 所做的中文翻译工作,本文档制作基于此处。 严正声明:本文档可免费用于学习和科学研究,可自由传播,但切勿擅自用于商业用途,由 此引发一切后果贡献者概不负责。 The main reason of organizing PDF version based the Chinese 5 2.1 Keras 优先考虑开发人员的经验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.2 Keras 被工业界和学术界广泛采用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5 2.3 Keras 可以轻松将模型转化为产品 . . . . . . . . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras 的发展得到深度学习生态系统中的关键公司的支持 . . . . . .0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0广播机制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44 2.1.4 索引和切片 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45 2.1.5 节省内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63 2.4.1 导数和微分 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64 2.4.2 偏导数 . . 2.6.2 处理多个随机变量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77 2.6.3 期望和方差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80 2.7 查阅文档 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-10机器学习-聚类K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签? ,我们的目标是找到能够 区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 什么商品呢? 主要的无监督学习方法 6 1.无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗0 码力 | 48 页 | 2.59 MB | 1 年前3
机器学习课程-温州大学-04机器学习-朴素贝叶斯机器学习-第四章 朴素贝叶斯 黄海广 副教授 2 本章目录 01 贝叶斯方法 02 朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 3 1.贝叶斯方法 01 贝叶斯方法 02 朴素贝叶斯原理 03 朴素贝叶斯案例 04 朴素贝叶斯代码实现 4 1.贝叶斯方法-背景知识 先验概率: 后验概率: 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为 贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为 基础,故统称为贝叶斯分类。 根据以往经验和分析得到的概率。我们用?(?)来代表在没有训练 数据前假设?拥有的初始概率。 根据已经发生的事件来分析得到的概率。以?(?|?)代表假设? 成 立的情下观察到?数据的概率,因为它反映了在看到训练数据? 后?成立的置信度。 贝叶斯分类: 5 联合概率是指在多元的概率分布中多个随机变量分别满足各自条 件的概率。 的联合概率表示为? ?, ? 、 ?(??) 或?(? ∩ ?) 。 联合概率: 假设?和?都服从正态分布,那么?(? < 5, ? < 0)就是一个联合概 率,表示 ? < 5, ? < 0两个条件同时成立的概率。表示两个事件 共同发生的概率。 1.贝叶斯方法-背景知识 6 1. 贝叶斯方法 贝叶斯公式 后验概率 似然度 先验概率 边际似然度 ?(?|?) = ?(?, ?)0 码力 | 31 页 | 1.13 MB | 1 年前3
机器学习课程-温州大学-特征工程特征选择 3 1. 相关概念 01 认识Python 01 相关概念 02 特征构建 03 特征提取 04 特征选择 4 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 度。于是诞生了机器学习界的 名言: 成功的机器学习应用不是 拥有最好的算法,而是拥 有最多的数据! 数据决定一切 数据大小 准 确 率 1. 相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目 特征提取 特征选择 共同点 都从原始特征中找出最有效的特征 都能帮助减少特征的维度、数据冗余 区别 ➢ 强调通过特征转换的方式得 相关概念 02 特征构建 03 特征提取 04 特征选择 8 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 特征构建:是指从原始数 据中人工的找出一些具有 物理意义的特征。 方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的 特征来创建新的特征 2. 特征构建 在原始数据集中的特征0 码力 | 38 页 | 1.28 MB | 1 年前3
共 74 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













