搜索

pdf文档 机器学习课程-温州大学-10机器学习-聚类

2.59 MB 48 页 2 下载 113 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档主要介绍了机器学习中的聚类方法,包括无监督学习的基本概念、主要算法(如K-means聚类、层次聚类、密度聚类)以及聚类的应用场景。文档还详细讨论了聚类的评价指标,特别是调整兰德系数(ARI)及其计算方法。内容涉及医疗、搜索引擎、社交网络等多个领域的聚类应用案例,并通过实例说明了聚类算法在实际中的有效性。
AI总结
### 机器学习-聚类总结 #### 1. 无监督学习概述 - **无监督学习**:无需依赖标注数据,通过算法发现数据中的隐藏结构。 - **聚类**:将相似的数据点分组,形成簇(clusters)。 - **主要算法**:K-means聚类、密度聚类、层次聚类。 - **主要应用**: - 市场细分、文档聚类、图像分割、图像压缩。 - 特征学习、犯罪易发地区分析、保险欺诈检测。 - 公共交通数据分析、IT资产集群、客户细分。 - 医疗应用(如疾病识别)、药物活性预测、搜索引擎优化。 #### 2. K-means聚类 - **基本思想**:将数据分成若干簇,簇内数据点相似,簇间数据点差异较大。 - **示例**:将数据点分成三个簇,计算簇内平均距离以确定簇的划分。 #### 3. 密度聚类和层次聚类 - **密度聚类**:基于数据点的密度来形成簇。 - **层次聚类**:通过层次化的方法(如凝聚或分裂)逐步形成簇。 #### 4. 聚类的评价指标 - **调整兰德系数(ARI)**:衡量两个聚类结果的吻合程度。 - 计算公式:综合考虑簇的重叠情况和随机性。 - 取值范围:[-1, 1],值越大表示聚类结果越接近真实情况。 #### 5. 应用案例 - **保险欺诈检测**:通过聚类发现欺诈行为。 - **搜索引擎优化**:如百度提供相似结果。 - **医疗应用**:识别甲状腺疾病数据。 - **社交网络分析**:自动分组联系人或好友。 总结:聚类算法在无监督学习中具有广泛的应用,通过合理选择算法和评价指标,可以有效解决多种实际问题。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 41 页请下载阅读 -
文档评分
请文明评论,理性发言.