泛型类 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-10机器学习-聚类

1 2023年04月机器学习-聚类黄海广副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述监督学习在一个典型的监督学习中，训练集有标签函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签?，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类（Clustering） ✓ 如何将教室里的学生按爱好、身高划分为5类？ ✓ 降维（ Dimensionality Reduction ） ✓ 如何将将原高维空间中的数据点映射到低维度的空间中？无监督学习方法概述主要算法 K-means、密度聚类、层次聚类聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… 7 1.无监督学习方法概述聚类案例 1.医疗医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非

0 码力 | 48 页 | 2.59 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

研究⽅向：机器学习系统，云计算，⼤数据系统 � 负责腾讯平台与内容事业群（PCG）技术中台核⼼引擎：⽆量系统。⽀持⼤规模稀疏模型训练，上线与推理提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 >15亿key/秒近千台只读版本写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台内存型服务并发查询优化数⼗台⽹络型服务 TB级模型实时上线 � 问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线

0 码力 | 22 页 | 6.76 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

9 反向传播算法实战 7.10 参考文献第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献第 9 章过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9 逻辑规则，传统的编程方式显得力不从心，而人工智能(Artificial Intelligence，简称 AI)是有望解决此问题的关键技术。随着深度学习算法的崛起，人工智能在部分任务上取得了类人甚至超人的智力水平，如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁，在 Dota2 游戏上 OpenAI Five 智能程序击败世界冠军队伍 OG，同时人脸识别、智能语音、机器翻译等一项 icial General Intelligence，简称 AGI)还有一段距离，我们仍坚定地相信人工智能时代已经来临。机器学习是人工智能的一个重要研究领域，而深度学习则是近几年最为火热的一类人工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联系与区别。 1.1.1 人工智能人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 模型选择、欠拟合和过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 iii 4.4.1 训练误差和泛化误差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.4.2 模型选择 . . . . . 残差网络（ResNet） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块

0 码力 | 797 页 | 29.45 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

一个巨大的10,000维度的softmax，因为计算成本很高，而是把它转变为10,000个二分类问题，每个都很容易计算，每次迭代我们要做的只是训练它们其中的5个，一般而言就是? + 1个，其中?个负样本和1个正样本。这也是为什么这个算法计算成本更低，因为只需更新? + 1个逻辑单元， ? + 1个二分类问题，相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? 隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。结构性的文本生成，首先通过注意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理。增强数据间的结构信息。其次通过Transformer等模式结合 Language Models are Few-Shot Learners》论文 • 预训练加微调范式中，可能在这种范式下实现的泛化可能很差，因为该模型过于特定于训练分布，并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能，即使名义上是人类水平，也可能夸大基础任务的实际性能。存在的问题03：因为人类学习大多数语言任务不需要大型受监督的数据集，当前NLP技术在概念上具有一定的局限性。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

签提取，情感分析，主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今以机器翻译为开端，作为早期尝试，但不是很成功基于统计机器学习技术及语料库，使用统计模型，NLP发展产生革新多数自然语言处理系统基于规则，人工修订等方式，包括问答、翻译、搜索等深度学习起步、发展及成熟，同样影响NLP领域，从传统的机器学习逐渐过渡到深度学习 CNN RNN CLSTM 序列标注传统机器学习（CRF） • 需要大量特征工程 • 不同领域需要反复调整深度学习（Bi-LSTM+CRF） • 多领域通用 • 输入层采用词向量，提升泛化能力 • 循环神经网络（LSTM,GRU等）能学到一些较远的的上下文特征以及一些非线性特征序列标注字/词向量 Bi-LSTM 会数据开观达去明小 LSTM LSTM 端到端标注模型知识图谱关系抽取：基于联合标注三类标签 • 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列，将同样关系类型的实体合并成一个三元组作为最后的结果，如果一个句子包含一个以上同一类型的关系，那么就采用就近原则来进行配对。目前这套标签并不支持实体关系重叠的情况。

0 码力 | 46 页 | 25.61 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

稍糊凹陷硬滑否训练集验证集在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。 24 C4.5的剪枝后剪枝基于表生成未剪枝的决策树平坦纹理色泽好瓜坏瓜根蒂色泽脐部坏瓜坏瓜坏瓜坏瓜好瓜好瓜替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。 25 C4.5的剪枝后剪枝后剪枝的决策树剪枝方法在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。 C4.5 采用的悲观剪枝方法，用递归的方式从低往上针替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。平坦色泽好瓜坏瓜根蒂脐部坏瓜坏瓜好瓜好瓜好瓜凹陷硬挺蜷曲稍蜷稍凹浅白青绿乌黑 ① ⑥ ⑤ ④ ③

0 码力 | 39 页 | 1.84 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘非线性特征及组合皮尔逊相关系数特征评估标签匹配度特征相关系数特征评估样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样，长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样模型评估 Ø 离线评估 • AUC / 为什么选择深度学习 Ø 线性CTR模型 • 优势：简单高效、可解释性强 • 局限性：特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型（DNN based model） • 优势：泛化能力强表达能力强网络结构灵活 User features Relation features Contextual features Continueous featues Categorical ReLU(64) Cross product transformation Logistic loss 深度学习应用实践 —— wide & deep Ø Wide & deep 网络架构 • Deep—泛化能力 • Wide—记忆能力 Ø 新增特征 Ø Deep部分依然需要特征工程 • Contextual featues: 用户最近的平均阅读时长、用户最近的互动微博 • Wide输入

0 码力 | 21 页 | 2.14 MB | 1 年前
3
机器学习课程-温州大学-机器学习项目流程

探索性数据分析(EDA) 11 探索性数据分析(EDA) 单变量图显示此变量的分布 plt.hist()可以显示单变量图，也叫直方图 12 探索性数据分析(EDA) boxplot ：箱型图又称为盒须图、盒式图或箱线图，是一种用作显示一组数据分散情况资料的统计图。它能显示出一组数据的最大值、最小值、中位数及上下四分位数。 13 探索性数据分析(EDA) IQR = Q3-Q1，即上四分位数与下四分位数之间的选择数据中最相关的特征的过程。在特征选择中，我们删除特征以帮助模型更好地总结新数据并创建更具可解释性的模型。一般来说，特征选择是减去特征，所以我们只留下那些最重要的特征。 20 特征工程主要方法离散型变量处理分箱/分区交叉特征特征缩放特征提取 …… 特征工程在数据挖掘中有举足轻重的位置数据领域一致认为：数据和特征决定了机器学习的上限，而模型和算法只能逼近这个上限而已。效果！ 3.特征工程 21 特征选择主要方法去除变化小的特征去除共线特征去除重复特征主成分分析（PCA） …… 特征选择主要有两个功能： 1.减少特征数量、降维，使模型泛化能力更强，减少过拟合 2.增强对特征和特征值之间的理解 3.特征工程 22 数据划分训练集测试集数据集验证集训练集测试集验证集时间序列不考虑时间因素，通常打乱数据

0 码力 | 26 页 | 1.53 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型  DNN > 树模型 > LR 美团超大规模模型应用场景 • 可扩展的机器学习架构  基于Parameter Server架构  数据并行 —— 支持超大规模训练集传入转换后的特征数据，调用模型计算引擎在线预估服务 • 特征编码方式  通过明文hash的方式编码  适用于特征的动态增长  不需要预分配，提高处理效率 • 框架与实现分离  提供op形式的特征抽取类  逻辑一致性：在线、近线、离线特征抽取框架目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型粗排模型 • 精排阶段的特点  候选集较少，通常在百级别  线上耗时相对宽松，几十毫秒（视效果而定） • 精排模型的特点  结构复杂，怎么有效果怎么来  特征多样：历史行为、统计值、id类特征、高维交叉, etc. • 模型发展历程  树模型：Random Forest、XGBoost  小规模DNN：MLP、小规模的Wide & Deep  大规模离散DNN：大规模的Wide

0 码力 | 41 页 | 5.96 MB | 1 年前
3

共 58 条前往

页

分类

语言

格式