机器学习课程-温州大学-10机器学习-聚类## 机器学习-聚类 黄海广 副教授 2023年04月 ## 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习方法概述 ## 监督学习和无监督学习的区别 ## 样本的决策边界,需要据此拟合一个假设函数。 ## 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签y,无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 ### 1. 无监督学习方法概述 ## 主要的无监督学习方法 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? ✓ 降维(Dimensionality Reduction) ✓ 无监督学习方法概述 ## 聚类 主要算法 K-means、密度聚类、层次聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… ### 1. 无监督学习方法概述 ## 聚类案例 ### 1. 医疗 医生可以使用聚类算法来发现疾病。以0 码力 | 48 页 | 2.59 MB | 2 年前3
基于 Greenplum 打造SaaS化电商服务平台## 基于GP打造SaaS化电商平台 聚水潭 秃鹰 赵坚密 2019.08.10 ## 聚水潭简介   聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务,快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经发展成为以SaaS ERP为核心,集多种商家服务 在1200多人。聚水潭已在全国设立了40多个线下服务分支机构,服务范围覆盖超过268个城市,为客户提供及时、周到和专业的服务。 来自阿里巴巴旗下商家服务市场的最新数据显示,聚水潭已是企业ERP类目中使用商家数最多的软件。自双十一购物节诞生以来,团队经历了每一次电商大促的考验,尽管每年承载单量成几何倍数增加,聚水潭系统依然保持平稳、安全和顺畅地运行。2018年11月11日,聚水潭系统处理订单总量达10 码力 | 7 页 | 547.94 KB | 2 年前3
Lecture 7: K-Means0 码力 | 46 页 | 9.78 MB | 2 年前3
Experiment 6: K-Means0 码力 | 3 页 | 605.46 KB | 2 年前3
领域驱动设计&中台/DDD的为与不为优先处理业务逻辑 不是架构师专属标榜 对软件匠艺的执着追求 套路化之后的有条理的多 关于软件结构的新思维方式 分离技术复杂度和业务复杂度 ## DDD为何? KIS S 高内聚 分层 抽象 DRY 纯函数 YAGNI 模块化 低耦合 依赖倒置 迪米特 里氏替换 关注点分离 单一职责 面向接口 不变性 开闭原则 ## DDD为何? 0101010 码力 | 25 页 | 931.68 KB | 2 年前3
领域驱动设计&中台/DDD促进传统架构微服务转型a0665a6bc7d4dfc3/p17_11.jpg) ## 微服务设计关键:高内聚 模型服务 问诊 服务 诊疗服务 患者服务 小而专 高内聚 症候表 问诊表 诊断治疗 患者表 ## 业务如何落地 微服务设计的难题 服务如何拆分 领域驱动设计 维护量如何减小 微服务内高内聚 微服务间低耦合 ## 项目整体规划 医生端 接诊平台 ## 用例模型分析0 码力 | 42 页 | 8.85 MB | 2 年前3
领域驱动设计&中台/可视化的遗留系统微服务改造b2fcf3b9ff0/p12_3.jpg) 突出用户信息,诉求和价值体现 还原业务场景 ## 可视化的划分遗留系统 领域驱动设计、事件风暴工作坊、服务画布 ## 好的设计 ## 高内聚 就是把相关的行为聚集在一起,把不相关的行为放在别处。如果你要修改某个服务的行为,最好只在一 处修改。 ## 低耦合 如果做到了服务之间的松耦合,那么修改一个服务就不需要修改另一个服务。一个松 聚合是一组相关领域模型的集合是用来封装业务的不变性。确保关联关系紧密的领域模型能够内聚在一起。 ## 为什么用聚合? 使用聚合的目的是封装业务的不变性,同时强迫大家尽可能的简化领域模型之间的关联关系。在业务层面进行高内聚,低耦合的设计。 ## 寻找聚合 0 码力 | 54 页 | 3.85 MB | 2 年前3
深度学习在电子商务中的应用的专利。 ● 业余爱好:骑行 电子邮箱: jim.cheng@ususing.com ## SUNING 苏宁 ## 议程 ## • 深度学习与商品搜索 矢量化搜索技术简介 ➢ 基于词语聚类的矢量化 ➢ 基于用户会话的矢量化 ➢ 原型评测结果及效果示例 ## • 深度学习与聊天机器人 ➢ 聊天机器人简介 ➢ 聊天机器人主要模块及架构 ➢ 深度学习探索 ➢ 聊天机器人评测结果 通过词语本身来预测上下文词语出现的概率 ## 基于词语聚类的矢量化模型 Word2vec等工具可以有效地将词语转化为向量 将句子 / 段落 / 文章有效转化为向量则有很大的挑战。 简单平均/加权平均容易失去句子等的语义/结构信息 ➢ 直接以句子为单位进行训练,则训练文本严重不足 电商搜索中遇到的主要是句子 / 短文分析,可以将短文中的词语聚类,挑选具有代表性的词语聚类结果,来表示整个短文 - 传统聚类(如Kmeans) 传统聚类(如Kmeans)在几何距离的基础上进行聚类,效果不好。利用随机过程做词语聚类可以解决这一问题 ## 基于词语聚类的矢量化模型 具体的生成cluster的流程如图: V[i]: 为产品信息里每个词的词语向量(word vector)分数 C $ ^{[i]} $ : 为聚类(cluster)的vector分数 N: 为 cluster 的数目 Sim(I, j): 词语i与cluster j的余弦相似度0 码力 | 27 页 | 1.98 MB | 2 年前3
Greenplum机器学习⼯具集和案例5/3/f/d/53fd9ff32ff8d8bf417d9e5b73bb19c9/p41_2.jpg) 2017.thegiac.com ## 建模过程 对API请求结合超时和K-means聚类处理 API 请求日志 会话识别 ## 对API请求进行会话化  根据原始特征 对用户聚类 抽取会话特征 ## K-means 聚类示例  ## 建模过程 抽取会话特征 根据原始特征 对用户聚类 ## 建模过程 对API请求结合超时和K-means聚集处理 会话识别  抽取会话特征 根据原始特征 对用户聚类 主题模型 对主题进行K-Means聚类 ## 主题模型:Latent Dirichlet0 码力 | 58 页 | 1.97 MB | 2 年前3
TiDB v6.1 中文手册语言结构和语法 ··· 2355 14.11.2 SQL 语句 ··· 2392 14.11.3 数据类型 ··· 2699 14.11.4 函数与操作符 ··· 2713 14.11.5 聚簇索引 ··· 2753  14.11 |Y|Y| |不可见索引|Y|Y|Y|Y|Y|Y|Y|N| |复合主键|Y|Y|Y|Y|Y|Y|Y|Y| |唯一约束|Y|Y|Y|Y|Y|Y|Y|Y| |整型主键上的聚簇索引|Y|Y|Y|Y|Y|Y|Y|Y| |复合或非整型主键上的聚簇索引|Y|Y|Y|Y|Y|Y|Y|N| ## 2.3.3 SQL语句 |SQL语句2|6.1|6.0|5.4|5.3|5.2|5.1|5.0| |---|--- INPLACE,COPY} 语法只作为一种指定,并不更改 ALTER 算法,详情参阅ALTER TABLE。 - 不支持添加或删除CLUSTERED类型的主键。要了解关于CLUSTERED主键的详细信息,请参考聚簇索引。 - 不支持指定不同类型的索引(HASH|BTREE|RTREE|FULLTEXT)。若指定了不同类型的索引,TiDB会解析并忽略这些索引。 - 分区表支持 HASH、RANGE 和 LIST0 码力 | 3572 页 | 84.36 MB | 2 年前3
共 191 条
- 1
- 2
- 3
- 4
- 5
- 6
- 20













