机器学习课程-温州大学-10机器学习-聚类1 2023年04月 机器学习-聚类 黄海广 副教授 2 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 3 1.无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 4 1.无监督学习方法概述 监督学习 在一个典型的监督学习中,训练集有标签 函数。 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签?,无 监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 监督学习和无监督学习的区别 5 1.无监督学习方法概述 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维( Dimensionality Reduction ) ✓ 如何将将原高维空间中的数据点映射到低维度的空间中? 无监督学习方法概述 主要算法 K-means、密度聚类、层次聚类 聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词 典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产 集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预 测…… 7 1.无监督学习方法概述 聚类案例 1.医疗 医生可以使用聚类算法来发现疾病。以甲状 腺疾病为例。当我们对包含甲状腺疾病和非0 码力 | 48 页 | 2.59 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 排序 混排0 码力 | 22 页 | 6.76 MB | 1 年前3
OpenShift Container Platform 4.10 可伸缩性和性能机器需要更多资源,您可以为 control plane 机 器选择更大的 AWS 实例类型。 1.4.1.1. 使用 使用 AWS 控制台更改 控制台更改 Amazon Web Services 实 实例 例类 类型 型 您可以通过更新 AWS 控制台中的实例类型来更改 control plane 机器使用的 Amazon Web Services (AWS) 实例类型。 先决条件 先决条件 您可以使用修改集群的 存中受益。 拓扑管理器(Topology Manager)从 CPU Manager、设备管理器和其他 Hint 提供者收集提示信息,以 匹配相同非统一 内存访问(NUMA)节点上的所有 QoS 类的 pod 资源(如 CPU、SR-IOV VF 和其他设 备资源)。 拓扑管理器使用收集来的提示信息中获得的拓扑信息,根据配置的 Topology Manager 策略以及请求的 Pod 资源,决定节点是否被节点接受或拒绝。 Pod specs 示例演示了 Pod 与 Topology Manager 的交互。 因为没有指定资源请求或限制,以下 pod 以 BestEffort QoS 类运行。 因为请求小于限制,下一个 pod 以 Burstable QoS 类运行。 $ oc edit KubeletConfig cpumanager-enabled apiVersion: machineconfiguration0 码力 | 315 页 | 3.19 MB | 1 年前3
Apache RocketMQ 从入门到实战年我又陆续发表了 20 几篇 关于 RocketMQ 相关的文章,这些文章含金量极高,不仅及时跟进了 RocketMQ4.3.0 之后的新特性:消息轨迹、ACL、主从切换等机制,更是发表了数篇实战类文章,详细指 出在生产环境下一些使用误区,更是输出了几篇生产环境真实故障与解决方案。最终于 20 19 年 RocketMQ 官方社区授予我优秀布道师荣誉称号。 RocketMQ 成就了我,我也会继续努力,为传播 况不符合,那成为一个开源项目的 Committer 有些什么条件呢? 1. 扎实的 Java 基础功底 一个开源项目的底层都会涉及到存储,这就要求具备一定的数据结构基础,JAVA 集 合框架中的类自然成为了我们突破数据结构最好的老师,其次是 java 并发,即多线程、并 发容器、锁等课题,这方面可以好好学习一下 JUC 框架。最后最好是具备一些网络方面的 知识,例如 NIO、Netty。 的学习,有使用需求,或许学习动力更强劲,学习效率更高效。 当具备一定的基础后,如何从零开始参与进开源项目呢?通常有如下几个方法: 看看官方文档,特别是设计手册,从整体上把握其设计理念。 写写源码分析类文章,从整体上把控这个框架,这个花费时间较多,如果框架正在起步。 阶段,不建议该方法;如果框架比较成熟,非常建议采用该方法。 尝试看看开源项目中的 issues,看能不能解决,从问题入手,快速融入该项目。0 码力 | 165 页 | 12.53 MB | 1 年前3
OpenShift Container Platform 4.8 日志记录t]。在这个版本中,权限修复解决了这个问题。(LOG-1657) 在更新前,Red Hat OpenShift Logging Operator 的自定义资源定义 (CRD) 缺少 Loki 输出类 型,这会导致准入控制器拒绝 ClusterLogForwarder 自定义资源对象。在这个版本中,CRD 包 含 Loki 作为输出类型,以便管理员可以配置 ClusterLogForwarder 以将日志发送到 Elasticsearch 索 引。 指定 Elasticsearch 节点的数量。请参阅此列表后面的备注。 为 Elasticsearch 存储输入现有存储类的名称。为获得最佳性能,请指定分配块存储的存 储类。如果没有指定存储类,OpenShift Logging 将使用临时存储。 根据需要指定 Elasticsearch 的 CPU 和内存请求。如果这些值留白,则 OpenShift Elasticsearch 页面。 b. 选择 openshift-logging 项目。 您应该会看到几个用于 OpenShift Logging、Elasticsearch、Fluentd 和 Kibana 的 pod,类 似于以下列表: cluster-logging-operator-cb795f8dc-xkckc elasticsearch-cdm-b3nqzchd-1-5c6797-67kfz elast0 码力 | 223 页 | 2.28 MB | 1 年前3
OpenShift Container Platform 4.7 日志记录状态显示以下新状态信息,以指示您尝试对已忽略的 Elasticsearch 存储进行不受支持的更 改: 当您尝试在临时存储结构和持久存储结构之间更改时,StorageStructureChangeIgnored。 当您尝试更改存储类名称时,StorageClassNameChangeIgnored。 当您尝试更改存储大小时,StorageSizeChangeIgnored。 注意 注意 如果您将 ClusterLogging slf4j-ext 类中的任意代码执行(CVE-2018-14718) jackson-databind: blaze-ds-opt 和 blaze-ds-core 类中的任意代码执行(CVE-2018-14719) jackson-databind:在某些 JDK 类中进行过滤/XXE(CVE-2018-14720) jackson-databind:axis2-jaxws 类中的服务器端请求 axis2-transport-jms 类中的不正确的 polymorphic deserialization(CVE- 2018-19360) jackson-databind: openjpa 类中的不正确的 polymorphic deserialization(CVE-2018-19361) jackson-databind: jboss-common-core 类中的不正确的 polymorphic0 码力 | 183 页 | 1.98 MB | 1 年前3
尚硅谷大数据技术之Hadoop(生产调优手册)-safemode leave (5)再观察上一个窗口 Safe mode is OFF (6)HDFS 集群上已经有上传的数据了 6.3 慢磁盘监控 “慢磁盘”指的时写入数据非常慢的一类磁盘。其实慢性磁盘并不少见,当机器运行时 间长了,上面跑的任务多了,磁盘的读写性能自然会退化,严重时就会出现写入数据延时的 尚硅谷大数据技术之 Hadoop(生产调优手册) install -y fio [atguigu@hadoop102 ~]# sudo fio - filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread - rw=read -ioengine=psync -bs=16k -size=2G -numjobs=10 - runtime=60 -group_reporting -name=test_r (2)顺序写测试 [atguigu@hadoop102 ~]# sudo fio - filename=/home/atguigu/test.log -direct=1 -iodepth 1 -thread - rw=write -ioengine=psync -bs=16k -size=2G -numjobs=10 - runtime=60 -group_reporting -name=test_w0 码力 | 41 页 | 2.32 MB | 1 年前3
AI大模型千问 qwen 中文文档from threading import Thread generation_kwargs = dict(model_inputs, streamer=streamer, max_new_tokens=512) thread = Thread(target=model.generate, kwargs=generation_kwargs) thread.start() generated_text shard_size="4GB") tokenizer.save_pretrained(quant_path) 然后你就可以得到一个可以用于部署的 AWQ 量化模型。玩得开心! 1.8 GPTQ GPTQ 是一种针对类 GPT 大型语言模型的量化方法,它基于近似二阶信息进行一次性权重量化。在本文 档中,我们将向您展示如何使用 transformers 库加载并应用量化后的模型,同时也会指导您如何通过 AutoGPTQ "gate_proj", "down_proj", ] ) lora_weight_path: str = "" lora_bias: str = "none" q_lora: bool = False 参数类允许你为模型、数据和训练指定超参数,如果使用 LoRA 或 Q-LoRA 训练模型,还会包含这两个方法 的相关超参数。具体来说,model-max-length 是一个关键的超参数,它决定了训练数据的最大序列长度。0 码力 | 56 页 | 835.78 KB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据--priority VERY_LOW \ #作业优先级� --board-enable true \ #是否开启Tensorboard服务� --conf tf.file.download.thread.nums=10 #其他参数设置� 提交脚本示例(分布式版本):� TensorFlow on Yarn设计 Yarn首页作业信息:� 作业类型 集群GPU资源概况 作业分配到的GPU数量 TensorFlow on Yarn技术细节揭秘 Yarn支持GPU调度ResourceManager端实现:� 扩展org.apache.hadoop.yarn.api.records.Resource抽象类及其实现,增加:� � public abstract int getGpuCores();� � public abstract void setGpuCores(int gCores);� � 最0 码力 | 32 页 | 4.06 MB | 1 年前3
1.3 MOSN 在云原生的探索及实践returns C.Response{ headers, body, trailers, optionFlags} …… 同时,我们也会将其剥离出来形成 一套标准的扩展: proxy_golang,类 似 proxy_wasm ,方便 Nginx、 OpenResty 等也能够支持 GoLang 扩 展。 MOE 方案介绍 — 功能职责 MOSN 做业务扩展 • 扩展非 xDS 服务发现 • 方案介绍 — GMP 中 P 资源问题 E n v o y 通 过 C G O 执 行 MOSN(GoLang),此时 P 的数量 如何管理?M 从哪来? 为 Envoy 每个 work thread 都预 留对应的 P,保证每个 G 都可 以立刻找到 P MOE 方案介绍 — 服务相关元数据如何管理 MOSN 和 Envoy 的相关服务元 数据信息,是如何交互管理的? 通过扩展 Envoy0 码力 | 36 页 | 35.61 MB | 1 年前3
共 358 条
- 1
- 2
- 3
- 4
- 5
- 6
- 36













