机器学习课程-温州大学-06机器学习-KNN算法
1 2021年04月 机器学习-KNN算法 黄海广 副教授 2 01 距离度量 02 KNN算法 本章目录 03 KD树划分 04 KD树搜索 3 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 1.距离度量 4 距离度量 欧氏距离(Euclidean distance) ? ?, ? = ?? σ?=1 ? ( ??)2 × σ?=1 ? ( ??)2 10 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 2.KNN算法 11 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是最简单的机器学习算 法,可以用于基本的分类与回归方法。 算法的主要思路: 如果一个样本在特征空间中与 对于回归问题:对新的样本,根据其?个最近邻的训练样本标签值的均值作为预 测值。 12 2.KNN算法 ?近邻法(k-Nearest Neighbor,kNN)是一种比较成熟也是 最简单的机器学习算法,可以用于基本的分类与回归方法。 ?近邻法的三要素: • ?值选择。 • 距离度量。 • 决策规则。 13 2.KNN算法 算法流程如下: 1.计算测试对象到训练集中每个对象的距离 2.按照距离的远近排序0 码力 | 26 页 | 1.60 MB | 1 年前3机器学习课程-温州大学-01机器学习-引言
是输入,?是输出。 21 决策树、朴素贝叶斯、隐马尔科夫模型、高斯混合模型属于概率模型。 感知机、支持向量机、KNN、AdaBoost、K-means以及神经网络均属于非概 率模型。 对于非概率模型而言,可按照判别函数线性与否分成线性模型与非线性模型。 感知机、线性支持向量机、KNN、K-means是线性模型。 核支持向量机、AdaBoost、神经网络属于非线性模型。 机器学习的概念-模型0 码力 | 78 页 | 3.69 MB | 1 年前32020美团技术年货 算法篇
协同 过滤方法主要可以分为两大类:基于 KNN 查找方法和基于相似度建模方法。 基 于 KNN 查找方法是通过查找 Top-K 个相关的 users 或 items 来实现推荐,基 于 KNN 查找方法可以通过查找与当前会话中最后一个 item 最相似的 item 来实 现基于会话的推荐。 最近,KNN-RNN[6] 探索将 RNN 模型与 KNN 模型相结 合,通过 RNN 模型来提取会话序列信息,然后查找在与当前 一个节点代表一个会话 s, 边的链 接代表两个会话之间具有相似性。我们需要考虑的一个重要问题是如何决定一条边是 否存在。对于每一对会话,我们计算其二者表示的相似度,然后采用根据相似度值 的 KNN-Graph[9] 模型来决定一个会话节点的邻居。在构建会话图结构之后,我们采 用会话层的注意力机制以及图神经网络模型 [10] 来整合会话邻居节点对其自身的影响, 同时会话层的注意力将会话之间0 码力 | 317 页 | 16.57 MB | 1 年前3Al原生数据库与RAG
基于视觉的文档理解和切分 页眉和页脚 段落划分 文字换行 表格处理 基于视觉的文档理解和切分 文字块 文字拼接 图表对话实例 多路召回 关键词检索 + 向量 BM25 变种 + KNN 行业词典 RRF(Reciprocal Rank Fusion) Field length normalize Cross attentional reranker Prompts0 码力 | 25 页 | 4.48 MB | 1 年前3Qcon北京2018-《文本智能处理的深度学习技术》-陈运文
结果 预处理 输出层 表示层 隐层 不同深度学习模型 后处理 NER 分词 情感分析 文本分类 机器翻译 … 文本分类 传统机器学习 • 选择分类器(朴素贝叶斯,SVM,KNN,LR,决 策树) • 特征工程构造特征 • 不同领域定制优化成本高 • 常需要分类算法融合提升效果 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求0 码力 | 46 页 | 25.61 MB | 1 年前3机器学习课程-温州大学-05机器学习-机器学习实践
可比性,经过标准化变换之后的特 征数据分布没有发生改变。 就是当数据特征取值范围或单位差异 较大时,最好是做一下标准化处理。 3.正则化、偏差和方差 18 需要做数据归一化/标准化 线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM、神经网络。另外,线性回归类的几个模型一般情况下也 是需要做数据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boost0 码力 | 33 页 | 2.14 MB | 1 年前3机器学习课程-温州大学-02机器学习-回归
可比性,经过标准化变换之后的特 征数据分布没有发生改变。 就是当数据特征取值范围或单位差异 较大时,最好是做一下标准化处理。 21 数据归一化/标准化 需要做数据归一化/标准化 线性模型,如基于距离度量的模型包括KNN(K近邻)、K-means聚类、 感知机和SVM。另外,线性回归类的几个模型一般情况下也是需要做数 据归一化/标准化处理的。 不需要做数据归一化/标准化 决策树、基于决策树的Boosting和Bagging等集成学习模型对于特征取0 码力 | 33 页 | 1.50 MB | 1 年前3Debian GNU/Linux 安装手册 October 14, 2021
Processor: Memory: Partitions:Output of lspci -knn (or lspci -nn): 19 CHAPTER 5. 用安装系统启动 5.3. 安装过程中的故障修复 Base System Installation Checklist: [O] = 0 码力 | 86 页 | 508.72 KB | 1 年前3动手学深度学习 v2.0
使用加载的GloVe向量,我们将通过下面的词相似性和类比任务中来展示词向量的语义。 词相似度 与 14.4.3节类似,为了根据词向量之间的余弦相似性为输入词查找语义相似的词,我们实现了以下knn(k近 邻)函数。 def knn(W, x, k): # 增加1e-9以获得数值稳定性 cos = torch.mv(W, x.reshape(-1,)) / ( torch.sqrt(torch.sum(W 然后,我们使用TokenEmbedding的实例embed中预训练好的词向量来搜索相似的词。 def get_similar_tokens(query_token, k, embed): topk, cos = knn(embed.idx_to_vec, embed[[query_token]], k + 1) for i, c in zip(topk[1:], cos[1:]): # 排除输入词 print(f'{embed embed): vecs = embed[[token_a, token_b, token_c]] x = vecs[1] - vecs[0] + vecs[2] topk, cos = knn(embed.idx_to_vec, x, 1) return embed.idx_to_token[int(topk[0])] # 删除未知词 让我们使用加载的词向量来验证“male‐female”类比。0 码力 | 797 页 | 29.45 MB | 1 年前3Debian GNU/Linux 安裝手冊 January 8, 2024
Processor: Memory: Partitions:Output of lspci -knn (or lspci -nn): Base System Installation Checklist: [O] = OK, [E] = Error (please elaborate below) 0 码力 | 120 页 | 643.51 KB | 1 年前3
共 48 条
- 1
- 2
- 3
- 4
- 5