机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 >15亿key/秒 近千台 只读版本 写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线0 码力 | 22 页 | 6.76 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版2021129 反向传播算法实战 7.10 参考文献 第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献 第 9 章 过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9 逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial Intelligence,简称 AI)是有 望解决此问题的关键技术。 随着深度学习算法的崛起,人工智能在部分任务上取得了类人甚至超人的智力水平, 如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁,在 Dota2 游戏上 OpenAI Five 智能程序击败世界冠军队伍 OG,同时人脸识别、智能语音、机器翻译等一项 icial General Intelligence,简称 AGI)还有一 段距离,我们仍坚定地相信人工智能时代已经来临。 机器学习是人工智能的一个重要研究领域,而深度学习则是近几年最为火热的一类人 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 人工智能 人工智能是让机器获得像人类一样具有思考和推理机制的智能技术,这一概念最早出0 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 模型选择、欠拟合和过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 iii 4.4.1 训练误差和泛化误差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.4.2 模型选择 . . . . . 残差网络(ResNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块0 码力 | 797 页 | 29.45 MB | 1 年前3
云计算白皮书企业上云逐渐延伸至生产、制造、管理等核心系统。二是生态服务 方面,一体化综合解决方案开始兴起。随着企业上云用云深度全面 的推进,第二梯队行业对于云厂商一体化综合解决方案的需求越来 越高,比如制造类企业、轨道交通企业等,开始设立数字化转型部 云计算白皮书(2023 年) 24 门,全面负责云平台建设工作,云厂商也相继提出一体化上云用云 解决方案,加速推动第二梯队企业上云用云实施落地。 向,亟需低成本实现业务运行实时监测和云平台智能高效管控,上 云企业均需云厂商提供人员驻场服务,帮助企业用云管云。 从企业规模来看,央国企是发展数字中国的主力军,而中小企 业类型多、数量大,是影响整体上云进程的关键。两类企业在上云 用云过程中呈现出不同的特点。 央国企上云覆盖率较高,深度用云和丰富云上生态是其发展重 云计算白皮书(2023 年) 25 点。根据国务院国资委数据,中央企业上云覆盖率达到了 86%。上 数字世界通过数字记录、描绘并模拟现实世界,是现实世界的 数字映射。数字技术实现了对现实世界的数据采集、存储,并能提 供分析处理数据所需的算力。云计算作为链接数字世界计算资源与 数字应用的纽带,能够有效整合海量、泛在的算力资源,加速数字 应用的感知、判断和执行。 (一)数字应用方式与算力资源供给的变革,推动云计 算作用转变 人工智能大模型的快速发展,引发数字应用使用方式和算力资 源供给的双向变革,加速了云计算向面向大体量分布式应用体系化、0 码力 | 47 页 | 1.22 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入一个巨大的10,000维度的softmax,因为计算成本很高, 而是把它转变为10,000个二分类问题,每个都很容易计算 ,每次迭代我们要做的只是训练它们其中的5个,一般而言 就是? + 1个,其中?个负样本和1个正样本。这也是为什么 这个算法计算成本更低,因为只需更新? + 1个逻辑单元, ? + 1个二分类问题,相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? 隐式方法即使用某类无监督学习学习或强化学 习模式将文本属性及内容自动分离,常见的有 生成对抗方式,即通过GAN实现目标属性和 文本量性完全由不同的编码控制的状态。 对话式文本生成适用于智能客服等任务型和闲聊型机器人等 非任务型人机交互场景,可分类为管道模式及端对端模式。 结构性的文本生成,首先通过注意力机制、多层感知器等系 统进行语句内容预选,对数值、时间等类型数据进行推理。 增强数据间的结构信息。其次通过Transformer等模式结合 Language Models are Few-Shot Learners》论文 • 预训练加微调范式中,可能在这种范式下实现的 泛化可能很差,因为该模型过于特定于训练分布, 并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能,即使名义上是人 类水平,也可能夸大基础任务的实际性能。 存在的问题03: 因为人类学习大多数语言任务不需要 大型受监督的数据集,当前NLP技术 在概念上具有一定的局限性。0 码力 | 44 页 | 2.36 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文签提取,情感分析,主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今 以机器翻译为开端,作 为早期尝试,但不是很 成功 基于统计机器学习技术 及语料库,使用统计模 型,NLP发展产生革新 多数自然语言处理系统 基于规则,人工修订等 方式,包括问答、翻译、 搜索等 深度学习起步、发展及 成熟,同样影响NLP领 域,从传统的机器学习 逐渐过渡到深度学习 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) • 多领域通用 • 输入层采用词向量,提升泛化能力 • 循环神经网络(LSTM,GRU等)能学 到一些较远的的上下文特征以及一些 非线性特征 序列标注 字/词向量 Bi-LSTM 会 数 据 开 观 达 去 明 小 LSTM LSTM 端到端标注模型 知识图谱关系抽取:基于联合标注 三类标签 • 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列,将同样关系类型的实体合并成一个三元组作为最后的结果,如果一个句子包含一个以上同一类 型的关系,那么就采用就近原则来进行配对。 目前这套标签并不支持实体关系重叠的情况。0 码力 | 46 页 | 25.61 MB | 1 年前3
企业云原生的探索与落地深圳沙龙-RacherLabs-20-11-14/小程序+容器:前端后端全链路敏捷化将得到什么样的松绑、激活 如何基于Rancher容器云平台快速搭建小程序,扩大企业数字化系统生态 传统移动应用开发模式以及转型升级顾虑 #移动应用开发现状# 单体应用 工具型APP 服务化、模块化 平台型APP 动态化、高可用 超级APP 开放、生态 新阶段 移动应用发展历程 2013年 2015年 2018年 ING Native HTML5 ReactNative Flutter #实战操作,小程序触手可达# XX银行小程序开放平台 立足金融和交易,向其上下游不断延伸,通过小程序的形式引入 更多元的泛金融和生活服务场景,为用户提供更丰富的生活服务 车主专区 故宫美妆 1、引入了饿了么、 高德打车、货拉拉、顺丰速运、申通快递等 多家优质生活服务类的商家,聚焦用户生活服务领域的服务深 化; 2、将金融服务无缝嵌入生活场景中,强化自身核心业务方向 , 探索场景化金融服务能力;0 码力 | 27 页 | 3.74 MB | 1 年前3
机器学习课程-温州大学-07机器学习-决策树稍糊 凹陷 硬滑 否 训练集 验证集 在已经生成的决策树上进行剪枝,从而 得到简化版的剪枝决策树。 后剪枝决策树通常比预剪枝决策树保留 了更多的分支。一般情况下,后剪枝的 欠拟合风险更小,泛化性能往往优于预 剪枝决策树。 24 C4.5的剪枝 后剪枝 基于表生成未剪枝的决策树 平坦 纹理 色泽 好瓜 坏瓜 根蒂 色泽 脐部 坏瓜 坏瓜 坏瓜 坏瓜 好瓜 好瓜 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 本上的错误率。 后剪枝决策树的欠拟合风险很小,泛化性能往往优于 预剪枝决策树。 25 C4.5的剪枝 后剪枝 后剪枝的决策树 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 本上的错误率。 后剪枝决策树的欠拟合风险很小,泛化性能往往优于 预剪枝决策树。 平坦 色泽 好瓜 坏瓜 根蒂 脐部 坏瓜 坏瓜 好瓜 好瓜 好瓜 凹陷 硬挺 蜷曲 稍蜷 稍凹 浅白 青绿 乌黑 ① ⑥ ⑤ ④ ③0 码力 | 39 页 | 1.84 MB | 1 年前3
Kubernetes平台比較:Red Hat
OpenShift、SUSE Rancher及
Canonical Kubernetes本。 Canonical Kubernetes支援最新的5個Kubernetes版本。其中最新的3個版本可獲 得完整功能、產品更新及安全性修補程式,比較舊的2個版本則僅獲得安全性更新。 這種更為廣泛的支援方式,可消除混合雲之中的問題,因為雲端供應商採用現行 Kubernetes修訂版的步調緩慢,並持續支援舊版本。 6. 邊緣支援 在邊緣運作對Kubernetes產生全新挑戰:資源的規模、大小及可存取性很快 Initiative,OCI)相容的執行階段,因此具備相當高的彈 性。 容器登錄檔是另一項建構成功Kubernetes策略的基礎。登錄檔是儲存容器映像的地 方,這些映像對應用程式開發及擴充能力至為關鍵。容器登錄檔以多種類型提供, Canonical Kubernetes、Red Hat Openshift及Rancher 均支援私有登錄檔、公有 雲登錄檔及DockerHub。 10.聯網 Kubernetes的聯網 供選擇,但並不是所有 Kubernetes發行版本都支援所有網路功能軟體。有鑑於此,組織應謹慎選擇 Kubernetes發行版本,不是選擇版本支援本身所需的特定網路功能解決方案,就是 要選擇提供最廣泛選項的版本。 • Canonical Kubernetes支援 Flannel、 Canal、 Calico、 Tigera EE,Multus、 SR-IOV、CIlium 和 JuniperContrail0 码力 | 10 页 | 1.26 MB | 1 年前3
共 199 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20













