泛型类 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-10机器学习-聚类

1 2023年04月机器学习-聚类黄海广副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述监督学习在一个典型的监督学习中，训练集有标签函数。无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签?，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类（Clustering） ✓ 如何将教室里的学生按爱好、身高划分为5类？ ✓ 降维（ Dimensionality Reduction ） ✓ 如何将将原高维空间中的数据点映射到低维度的空间中？无监督学习方法概述主要算法 K-means、密度聚类、层次聚类聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… 7 1.无监督学习方法概述聚类案例 1.医疗医生可以使用聚类算法来发现疾病。以甲状腺疾病为例。当我们对包含甲状腺疾病和非

0 码力 | 48 页 | 2.59 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

研究⽅向：机器学习系统，云计算，⼤数据系统 � 负责腾讯平台与内容事业群（PCG）技术中台核⼼引擎：⽆量系统。⽀持⼤规模稀疏模型训练，上线与推理提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统 HDFS 数据通道训练系统召回业务服务排序混排主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本困难 >15亿key/秒近千台只读版本写版本 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台内存型服务并发查询优化数⼗台⽹络型服务 TB级模型实时上线 � 问题：TB模型实时多地传输和加载成本⾼ � ⽅案：⾼低频分别上线 � 更灵活的⽤法：模型多切⽚，按需上线

0 码力 | 22 页 | 6.76 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

9 反向传播算法实战 7.10 参考文献第 8 章 PyTorch 高级用法 8.1 常见功能模块 8.2 模型装配、训练与测试 8.3 模型保存与加载 8.4 自定义类 8.5 模型乐园 8.6 测量工具 8.7 可视化 8.8 参考文献第 9 章过拟合 9.1 模型的容量 9.2 过拟合与欠拟合 9.3 数据集划分 9 逻辑规则，传统的编程方式显得力不从心，而人工智能(Artificial Intelligence，简称 AI)是有望解决此问题的关键技术。随着深度学习算法的崛起，人工智能在部分任务上取得了类人甚至超人的智力水平，如在围棋上 AlphaGo 智能程序已经击败人类最强围棋专家之一柯洁，在 Dota2 游戏上 OpenAI Five 智能程序击败世界冠军队伍 OG，同时人脸识别、智能语音、机器翻译等一项 icial General Intelligence，简称 AGI)还有一段距离，我们仍坚定地相信人工智能时代已经来临。机器学习是人工智能的一个重要研究领域，而深度学习则是近几年最为火热的一类人工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联系与区别。 1.1.1 人工智能人工智能是让机器获得像人类一样具有思考和推理机制的智能技术，这一概念最早出

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . 81 2.7.1 查找模块中的所有函数和类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81 2.7.2 查找特定函数和类的用法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 模型选择、欠拟合和过拟合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139 iii 4.4.1 训练误差和泛化误差 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 140 4.4.2 模型选择 . . . . . 残差网络（ResNet） . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 275 7.6.1 函数类 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 276 7.6.2 残差块

0 码力 | 797 页 | 29.45 MB | 1 年前
3
云计算白皮书

企业上云逐渐延伸至生产、制造、管理等核心系统。二是生态服务方面，一体化综合解决方案开始兴起。随着企业上云用云深度全面的推进，第二梯队行业对于云厂商一体化综合解决方案的需求越来越高，比如制造类企业、轨道交通企业等，开始设立数字化转型部云计算白皮书（2023 年） 24 门，全面负责云平台建设工作，云厂商也相继提出一体化上云用云解决方案，加速推动第二梯队企业上云用云实施落地。向，亟需低成本实现业务运行实时监测和云平台智能高效管控，上云企业均需云厂商提供人员驻场服务，帮助企业用云管云。从企业规模来看，央国企是发展数字中国的主力军，而中小企业类型多、数量大，是影响整体上云进程的关键。两类企业在上云用云过程中呈现出不同的特点。央国企上云覆盖率较高，深度用云和丰富云上生态是其发展重云计算白皮书（2023 年） 25 点。根据国务院国资委数据，中央企业上云覆盖率达到了 86%。上数字世界通过数字记录、描绘并模拟现实世界，是现实世界的数字映射。数字技术实现了对现实世界的数据采集、存储，并能提供分析处理数据所需的算力。云计算作为链接数字世界计算资源与数字应用的纽带，能够有效整合海量、泛在的算力资源，加速数字应用的感知、判断和执行。（一）数字应用方式与算力资源供给的变革，推动云计算作用转变人工智能大模型的快速发展，引发数字应用使用方式和算力资源供给的双向变革，加速了云计算向面向大体量分布式应用体系化、

0 码力 | 47 页 | 1.22 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

一个巨大的10,000维度的softmax，因为计算成本很高，而是把它转变为10,000个二分类问题，每个都很容易计算，每次迭代我们要做的只是训练它们其中的5个，一般而言就是? + 1个，其中?个负样本和1个正样本。这也是为什么这个算法计算成本更低，因为只需更新? + 1个逻辑单元， ? + 1个二分类问题，相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? 隐式方法即使用某类无监督学习学习或强化学习模式将文本属性及内容自动分离，常见的有生成对抗方式，即通过GAN实现目标属性和文本量性完全由不同的编码控制的状态。对话式文本生成适用于智能客服等任务型和闲聊型机器人等非任务型人机交互场景，可分类为管道模式及端对端模式。结构性的文本生成，首先通过注意力机制、多层感知器等系统进行语句内容预选，对数值、时间等类型数据进行推理。增强数据间的结构信息。其次通过Transformer等模式结合 Language Models are Few-Shot Learners》论文 • 预训练加微调范式中，可能在这种范式下实现的泛化可能很差，因为该模型过于特定于训练分布，并且在其之外无法很好地泛化。 • 微调模型在特定基准上的性能，即使名义上是人类水平，也可能夸大基础任务的实际性能。存在的问题03：因为人类学习大多数语言任务不需要大型受监督的数据集，当前NLP技术在概念上具有一定的局限性。

0 码力 | 44 页 | 2.36 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

签提取，情感分析，主题模型 NLP发展简史 1950S 1980s 1990s 2006~至今以机器翻译为开端，作为早期尝试，但不是很成功基于统计机器学习技术及语料库，使用统计模型，NLP发展产生革新多数自然语言处理系统基于规则，人工修订等方式，包括问答、翻译、搜索等深度学习起步、发展及成熟，同样影响NLP领域，从传统的机器学习逐渐过渡到深度学习 CNN RNN CLSTM 序列标注传统机器学习（CRF） • 需要大量特征工程 • 不同领域需要反复调整深度学习（Bi-LSTM+CRF） • 多领域通用 • 输入层采用词向量，提升泛化能力 • 循环神经网络（LSTM,GRU等）能学到一些较远的的上下文特征以及一些非线性特征序列标注字/词向量 Bi-LSTM 会数据开观达去明小 LSTM LSTM 端到端标注模型知识图谱关系抽取：基于联合标注三类标签 • 单词在实体中的位置{B(begin),I(inside),E(end),S(single)} • 关系类型{CF,CP,...} • 关系角色{1(entity1),2(entity2)} 根据标签序列，将同样关系类型的实体合并成一个三元组作为最后的结果，如果一个句子包含一个以上同一类型的关系，那么就采用就近原则来进行配对。目前这套标签并不支持实体关系重叠的情况。

0 码力 | 46 页 | 25.61 MB | 1 年前
3
企业云原生的探索与落地深圳沙龙-RacherLabs-20-11-14/小程序+容器：前端后端全链路敏捷化

将得到什么样的松绑、激活如何基于Rancher容器云平台快速搭建小程序，扩大企业数字化系统生态传统移动应用开发模式以及转型升级顾虑 #移动应用开发现状# 单体应用工具型APP 服务化、模块化平台型APP 动态化、高可用超级APP 开放、生态新阶段移动应用发展历程 2013年 2015年 2018年 ING Native HTML5 ReactNative Flutter #实战操作，小程序触手可达# XX银行小程序开放平台立足金融和交易，向其上下游不断延伸，通过小程序的形式引入更多元的泛金融和生活服务场景，为用户提供更丰富的生活服务车主专区故宫美妆 1、引入了饿了么、高德打车、货拉拉、顺丰速运、申通快递等多家优质生活服务类的商家，聚焦用户生活服务领域的服务深化； 2、将金融服务无缝嵌入生活场景中，强化自身核心业务方向，探索场景化金融服务能力；

0 码力 | 27 页 | 3.74 MB | 1 年前
3
机器学习课程-温州大学-07机器学习-决策树

稍糊凹陷硬滑否训练集验证集在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下，后剪枝的欠拟合风险更小，泛化性能往往优于预剪枝决策树。 24 C4.5的剪枝后剪枝基于表生成未剪枝的决策树平坦纹理色泽好瓜坏瓜根蒂色泽脐部坏瓜坏瓜坏瓜坏瓜好瓜好瓜替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。 25 C4.5的剪枝后剪枝后剪枝的决策树剪枝方法在已经生成的决策树上进行剪枝，从而得到简化版的剪枝决策树。 C4.5 采用的悲观剪枝方法，用递归的方式从低往上针替这课子树是否有益。如果剪枝后与剪枝前相比其错误率是保持或者下降，则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样本上的错误率。后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树。平坦色泽好瓜坏瓜根蒂脐部坏瓜坏瓜好瓜好瓜好瓜凹陷硬挺蜷曲稍蜷稍凹浅白青绿乌黑 ① ⑥ ⑤ ④ ③

0 码力 | 39 页 | 1.84 MB | 1 年前
3
Kubernetes平台比較：Red Hat OpenShift、SUSE Rancher及 Canonical Kubernetes

本。 Canonical Kubernetes支援最新的5個Kubernetes版本。其中最新的3個版本可獲得完整功能、產品更新及安全性修補程式，比較舊的2個版本則僅獲得安全性更新。這種更為廣泛的支援方式，可消除混合雲之中的問題，因為雲端供應商採用現行 Kubernetes修訂版的步調緩慢，並持續支援舊版本。 6. 邊緣支援在邊緣運作對Kubernetes產生全新挑戰：資源的規模、大小及可存取性很快 Initiative，OCI)相容的執行階段，因此具備相當高的彈性。容器登錄檔是另一項建構成功Kubernetes策略的基礎。登錄檔是儲存容器映像的地方，這些映像對應用程式開發及擴充能力至為關鍵。容器登錄檔以多種類型提供， Canonical Kubernetes、Red Hat Openshift及Rancher 均支援私有登錄檔、公有雲登錄檔及DockerHub。 10.聯網 Kubernetes的聯網供選擇，但並不是所有 Kubernetes發行版本都支援所有網路功能軟體。有鑑於此，組織應謹慎選擇 Kubernetes發行版本，不是選擇版本支援本身所需的特定網路功能解決方案，就是要選擇提供最廣泛選項的版本。 • Canonical Kubernetes支援 Flannel、 Canal、 Calico、 Tigera EE,Multus、 SR-IOV、CIlium 和 JuniperContrail

0 码力 | 10 页 | 1.26 MB | 1 年前
3

共 199 条前往

页

分类

语言

格式