Lecture 1: Overview0 码力 | 57 页 | 2.41 MB | 2 年前3
机器学习课程-温州大学-Scikit-learn## 机器学习-机器学习库Scikit-learn 黄海广 副教授 2022年01月 ## 本章目录 01 Scikit-learn概述 02 Scikit-learn主要用法 03 Scikit-learn案例 ### 1. Scikit-learn概述 01 Scikit-learn概述 02 Scikit-learn主要用法 03 Scikit-learn案例 ### Scikit-learn是基于NumPy、SciPy和Matplotlib的开源Python机器学习包,它封装了一系列数据预处理、机器学习算法、模型选择等工具,是数据分析师首选的机器学习工具包。 自2007年发布以来,scikit-learn已经成为Python重要的机器学习库了,scikit-learn简称sklearn,支持包括分类,回归,降维和聚类四大机器学习算法。还包括了特征提取,数据处理和模型评估三大模块。  张海彬 阿里云 应用可观测技术专家  无侵入  多语言/多协议/多框架  全栈覆盖 ## 无侵入性 cb2f68/p27_1.jpg) 告警收敛,幸福感UP ## eBPF + Golang 在阿里云应用可观测的实践 应用监控eBPF版 ## 无侵入的应用可观测 eBPF是一种在Linux内核运行的沙盒程序,无需修改任何应用代码,提供无侵入的应用无关、语言无关、框架无关的应用可观测能力,提供如网络、虚拟内存、系统调用等Otel无法获取的数据指标。 eBPF & Otel SDK均支持0 码力 | 29 页 | 3.83 MB | 1 年前3
机器学习课程-温州大学-08机器学习-集成学习## 机器学习-集成学习 黄海广 副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从 ## 集成学习 ## Boosting 训练过程为阶梯状,基模型按次序——进行训练(实现上可以做到并行),基模型的训练集按照某种策略每次都进行一定的转化。对所有基模型预测的结果进行线性综合产生最终的预测结果。  ## 集成学习 ## Stacking 2. 易于并行化,在大数据集上有很大的优势; 3. 能够处理高维度数据,不用做特征选择。 ## 随机森林 Random Forest(随机森林)是 Bagging 的扩展变体,它在以决策树为基学习器构建 Bagging 集成的基础上,进一步在决策树的训练过程中引入了随机特征选择,因此可以概括随机森林包括四个部分: 1. 随机选择样本(放回抽样); 2. 随机选择特征; 3. 构建决策树;0 码力 | 50 页 | 2.03 MB | 2 年前3
机器学习课程-温州大学-05深度学习-深度学习实践## 深度学习-深度学习实践 黄海广 副教授 2023年03月 ## 本章目录 01 数据集划分 02 数据集制作 03 数据归一化/标准化 04 正则化 05 偏差和方差 ## 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集(Dev Set),用来做模型选择(model selection),即做模型的最终优化及确定的,用来辅助我们的模型的构建,即训练超参数,可选; 测试集(Test Set):为了测试已经训练好的模型的精确度。 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1%(假设百万条数据) ## 交叉验证 。 ### 3. 正则化 正则化(regularization)的技术,保留所有的特征,但是减少参数的大小(magnitude),它可以改善或者减少过拟合问题。 ### 4. 集成学习方法 集成学习是把多个0 码力 | 19 页 | 1.09 MB | 2 年前3
机器学习课程-温州大学-05机器学习-机器学习实践## 机器学习-机器学习实践 黄海广 副教授 2022年02月 ## 本章目录 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 ## 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 训练集(Training Set):帮助我们训练模型,简单的说就是通过训练集的数据让我们确定拟合曲线的参数。 验证集(Validation > 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1%(假设百万条数据) ## 交叉验证  ## 不平衡数据的处理 数据不平衡是指数据集中各类样本数量不均衡的情况. 常用不平衡处理方法有采样和代价敏感学习 采样欠采样、过采样和综合采样的方法 训练集 验证集 测试集 0 码力 | 33 页 | 2.14 MB | 2 年前3
机器学习课程-温州大学-10机器学习-聚类## 机器学习-聚类 黄海广 副教授 2023年04月 ## 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习方法概述 ## 监督学习和无监督学习的区别 ## ## 监督学习 在一个典型的监督学习中,训练集有标签y,我们的目标是找到能够区分正样本和负样本的决策边界,需要据此拟合一个假设函数。 ## 无监督学习 与此不同的是,在无监督学习中,我们的数据没有附带任何标签y,无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 ### 1. 无监督学习方法概述 ## 主要的无监督学习方法 ✓ 聚类(Clustering) ✓ 如何将教室里的学生按爱好、身高划分为5类? 给他们推荐什么商品呢? ### 1. 无监督学习方法概述 ## 聚类 主要算法 K-means、密度聚类、层次聚类 主要应用 市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… ### 1. 无监督学习方法概述 ## 聚类案例 ### 10 码力 | 48 页 | 2.59 MB | 2 年前3
机器学习课程-温州大学-01深度学习-引言## 深度学习-引言 黄海广 副教授 2023年03月 ## 本章目录 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 ### 1. 深度学习概述 ## 01 深度学习概述 02 神经网络的基础 03 深度学习的背景知识 04 深度学习的开发流程 ## 深度学习与机器学习、人工智能的关系 人工智能:机器展现的人类智能 机器 机器学习:计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法。 深度学习:实现机器学习的一种技术  ## 深度学习界的执牛耳者  周志华,南京大学计算机科学与技术系主任、人工智能学院院长。代表作:《机器学习》(西瓜书) ## 人工智能界的青年才俊  训练 归纳 模型 预测 未知属性 新的问题 规律 ## 机器学习的一般步骤 数据搜集  数据清洗 












