机器学习工具集 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

Greenplum机器学习⼯具集和案例

## Greenplum机器学习工具集和案例姚延栋 Pivotal 研发技术总监 2017.thegiac.com ## 大纲 • Greenplum 大数据平台 • Greenplum 机器学习工具 • Greenplum 机器学习案例 ## Pivotal ## Greenplum: 新一代开源大数据平台 2017.thegiac.com ## Greenplum 集群 ! 完善的标准支持：SQL、JDBC、ODBC - 集成数据平台：BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码，持续大力投入 - 敏捷方法学：快速迭代、持续发布、质量内建 • 企业级稳定性，成熟生态系统 ## Pivotal ## Greenplum: 机器学习工具集 2017.thegiac.com ## Greenplum 机器学习工具集 PL/X：各种语言实现自定义函数（存储过程） - MADLib: ents/5/3/f/d/53fd9ff32ff8d8bf417d9e5b73bb19c9/p15_2.jpg) 2017.thegiac.com ## MADlib 基于SQL的数据库内置的机器学习库 ![Image](/uploads/documents/5/3/f/d/53fd9ff32ff8d8bf417d9e5b73bb19c9/p16_2.jpg) Apache上的开源项目

0 码力 | 58 页 | 1.97 MB | 2 年前
3

机器学习课程-温州大学-05机器学习-机器学习实践

## 机器学习-机器学习实践黄海广副教授 2022年02月 ## 本章目录 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分 ## 01 数据集划分 02 评价指标 03 正则化、偏差和方差 ### 1. 数据集划分训练集（Training Set）：帮助我们训练模型，简单的说就是通过训练集的数据让我们确定拟合曲线的参数。验证集（Validation Set）：也叫做开发集（Dev Set），用来做模型选择（model selection），即做模型的最终优化及确定的，用来辅助我们的模型的构建，即训练超参数，可选；测试集（Test Set）：为了测试已经训练好的模型的精确度。三者划分：训练集、验证集、测试集机器学习：60%，20%，20%；70%，10%，20% 深度学习：98%，1%，1%（假设百万条数据） ## 交叉验证 ![Image](/uploads/documents/4/4/0/8/44080acc01be0b7f2aa90282cb8ae007/p5_1.jpg) 1. 使用训练集训练出 k 个模型 2. 用 k 个模型分别对交叉验证集计算得出交叉验证误差（代价函数的值）

0 码力 | 33 页 | 2.14 MB | 2 年前

机器学习课程-温州大学-08机器学习-集成学习

## 机器学习-集成学习黄海广副教授 2022年12月 ## 本章目录 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ### 1. 集成学习方法概述 01 集成学习方法概述 02 AdaBoost和GBDT算法 03 XGBoost 04 LightGBM ## 集成学习 ## Bagging 从从训练集中进行子抽样组成每个基模型所需要的子训练集，对所有基模型预测的结果进行综合产生最终的预测结果： ![Image](/uploads/documents/a/3/b/e/a3be2cf0225d91ae47bbea4a4089f601/p4_1.jpg) ## 集成学习 ## Boosting 训练过程为阶梯状，基模型按次序——进行训练（实现上可以做到并行），基模型的训练集按照某种策略每次都进行一定的转 91ae47bbea4a4089f601/p5_1.jpg) ## 集成学习 ## Stacking 将训练好的所有基模型对训练基进行预测，第j个基模型对第i个训练样本的预测值将作为新的训练集中第i个样本的第j个特征值，最后基于新的训练集进行训练。同理，预测的过程也要先经过所有基模型的预测形成新的测试集，最后再对测试集进行预测。 ![Image](/uploads/documents/a/

0 码力 | 50 页 | 2.03 MB | 2 年前

机器学习课程-温州大学-02机器学习-回归

## 机器学习-第二章回归黄海广副教授 2022年09月 ## 本章目录 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ### 1. 线性回归 01 线性回归 02 梯度下降 03 正则化 04 回归的评价指标 ## 回归的概念 ## 监督学习分为回归和分类 ✓ 回归（Regression、Prediction） ✓ 如何预测上海浦东的房价？代表特征的数量 x 代表特征/输入变量 y 代表目标变量/输出变量 $ (x,y) $ 代表训练集中的样本 $ (x^{(i)}, y^{(i)}) $ 代表第 i 个观察样本 h 代表学习算法的解决方案或函数也称为假设（hypothesis） $ \widehat{y} = h(x) $ , 代表预测的值 $ x^{(i)} $ 是特征矩阵中的第 i 行，是一个向量。 \cdots+w_{n}x_{n}\end{array} $$ ![Image](/uploads/documents/9/9/0/e/990e7845b4e774c84fea91a89b00e1cf/p7_1.jpg) 机器学习算法可以设 $ x_{0}=1 $ 则： $ h(x)=w_{0}x_{0}+w_{1}x_{1}+w_{2}x_{2}+\ldots+w_{n}x_{n}=w^{T}X $ 注意：若表达式

0 码力 | 33 页 | 1.50 MB | 2 年前

机器学习课程-温州大学-01机器学习-引言

## 机器学习-引言黄海广副教授 2022年02月 ## 目录 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ### 1. 机器学习概述 01 机器学习概述 02 机器学习的类型 03 机器学习的背景知识 04 机器学习的开发流程 ## 机器学习与人工智能、深度学习的关系人工智能：机器展现的人类智能机器学习：计算机器学习：计算机利用已有的数据(经验)，得出了某种模型，并利用此模型预测未来的一种方法。深度学习：实现机器学习的一种技术 ![Image](/uploads/documents/c/7/b/8/c7b85d1805db4f3c7d5012f0d747b787/p4_1.jpg) ## 机器学习界的执牛耳者 ![Image](/uploads/documents/c/7/b/8/c7b85d1805db 百度首席科学家。 ## 机器学习界的国内泰斗 ![Image](/uploads/documents/c/7/b/8/c7b85d1805db4f3c7d5012f0d747b787/p6_1.jpg) 李航, 现任字节跳动科技有限公司人工智能实验室总监, 北京大学、南京大学客座教授, IEEE 会士, ACM 杰出科学家, CCF 高级会员。代表作: 《统计学习方法》 ![Image

0 码力 | 78 页 | 3.69 MB | 2 年前

机器学习课程-温州大学-机器学习项目流程

## 机器学习-机器学习项目流程黄海广副教授 2021年06月 ## 本章目录 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ### 1. 机器学习项目流程概述 ## 01 机器学习项目流程概述 02 数据清洗 03 特征工程 04 数据建模 ## 机器学习的一般步骤历史数据经验 ![Image](/uploads/docume nts/f/9/9/7/f9970c547e3e3f7eded261571005440e/p4_1.jpg) 训练归纳模型预测未知属性新的问题规律 ## 机器学习的一般步骤数据搜集 ![Image](/uploads/documents/f/9/9/7/f9970c547e3e3f7eded261571005440e/p5_1.jpg) 数据清洗 ![Ima e/p5_10.jpg) ## 机器学习的一般步骤 ## 数据搜集 • 网络下载 • 网络爬虫 • 数据库读取 • 开放数据 ## 数据清洗 • 数据清理和格式化 • 探索性数据分析(EDA) ## 特征工程 • 特征工程 • 特征选择 ## 数据建模 - 基于性能指标比较几种机器学习模型 • 对最佳模型执行超参数调整 • 在测试集上评估最佳模型 • 解释模型结果

0 码力 | 26 页 | 1.53 MB | 2 年前

机器学习课程-温州大学-11机器学习-降维

## 机器学习-降维黄海广副教授 2022年02月 ## 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述 ## 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) ### 1. 降维概述维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。加，计算量呈指数倍增长的一种现象。在很多机器学习问题中，训练集中的每条数据经常伴随着上千、甚至上万个特征。要处理这所有的特征的话，不仅会让训练非常缓慢，还会极大增加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 ![Image](/uploads/documents/3/1/5/8/3158ee0662bc2ab161ebdef24b0b5627/p4_1.jpg) ![Ima /p4_3.jpg) ### 1. 降维概述 ## 维数灾难维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中，通常指的是随着特征数量的增多，计算量会变得很大，如特征达到上亿维的话，在进行计算的时候是算不出来的。有的时候，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征的增加先上升后下降。 ### 1. 降维概述

0 码力 | 51 页 | 3.14 MB | 2 年前

机器学习课程-温州大学-10机器学习-聚类

## 机器学习-聚类黄海广副教授 2023年04月 ## 本章目录 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习概述 01 无监督学习概述 02 K-means聚类 03 密度聚类和层次聚类 04 聚类的评价指标 ### 1. 无监督学习方法概述 ## 监督学习和无监督学习的区别 ## ## 监督学习在一个典型的监督学习中，训练集有标签y，我们的目标是找到能够区分正样本和负样本的决策边界，需要据此拟合一个假设函数。 ## 无监督学习与此不同的是，在无监督学习中，我们的数据没有附带任何标签y，无监督学习主要分为聚类、降维、关联规则、推荐系统等方面。 ### 1. 无监督学习方法概述 ## 主要的无监督学习方法 ✓ 聚类（Clustering） ✓ 如何将教室里的学生按爱好、身高划分为5类？们推荐什么商品呢？ ### 1. 无监督学习方法概述 ## 聚类主要算法 K-means、密度聚类、层次聚类主要应用市场细分、文档聚类、图像分割、图像压缩、聚类分析、特征学习或者词典学习、确定犯罪易发地区、保险欺诈检测、公共交通数据分析、IT资产集群、客户细分、识别癌症数据、搜索引擎应用、医疗应用、药物活性预测…… ### 1. 无监督学习方法概述 ## 聚类案例 ### 1.

0 码力 | 48 页 | 2.59 MB | 2 年前

机器学习课程-温州大学-06机器学习-KNN算法

## 机器学习-KNN算法黄海广副教授 2021年04月 ## 本章目录 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 ### 1. 距离度量 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 ## 距离度量欧氏距离(Euclidean distance) 电影分类 ![Image](/uploads/doc 01 距离度量 02 KNN算法 03 KD树划分 04 KD树搜索 ### 2. KNN算法 k近邻法（k-Nearest Neighbor, kNN）是一种比较成熟也是最简单的机器学习算法，可以用于基本的分类与回归方法。算法的主要思路：如果一个样本在特征空间中与k个实例最为相似(即特征空间中最邻近)，那么这k个实例中大多数属于哪个类别，则该样本也属于这个类别。对于分测。对于回归问题：对新的样本，根据其k个最近邻的训练样本标签值的均值作为预测值。 ### 2. KNN算法 k近邻法（k-Nearest Neighbor,kNN）是一种比较成熟也是最简单的机器学习算法，可以用于基本的分类与回归方法。 k近邻法的三要素： • k值选择。 • 距离度量。 • 决策规则。 ### 2. KNN算法 ## 算法流程如下: 1. 计算测试对象到训练集中每个对象的距离

0 码力 | 26 页 | 1.60 MB | 2 年前

机器学习课程-温州大学-03机器学习-逻辑回归

## 机器学习-逻辑回归黄海广副教授 2022年02月 ## 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ### 1. 分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 ## 分类问题 ## 监督学习的最主要类型 ## ✓ 分类（Classification） Machine Learning[EB/OL]. Stanford University, 2014. https://www.coursera.org/course/ml [3] 李航. 统计学习方法[M]. 北京: 清华大学出版社, 2019. [4] Hastie T., Tibshirani R., Friedman J. The Elements of Statistical Learning[M]

0 码力 | 23 页 | 1.20 MB | 2 年前

共 1000 条前往

页

数据集
训练集	验证集	测试集

搜索

分类

语言

格式