机器学习课程-温州大学-03机器学习-逻辑回归1 2022年02月 机器学习-逻辑回归 黄海广 副教授 2 本章目录 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 3 1.分类问题 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 4 监督学习的最主要类型 ✓ 分类(Classification) Sigmoid函数 01 分类问题 02 Sigmoid函数 03 逻辑回归求解 04 逻辑回归代码实现 8 ? ? 代表一个常用的逻辑函数(logistic function)为?形函数(Sigmoid function) 则:? ? = ? ? = 1 1+?−? 合起来,我们得到逻辑回归模型的假设函数: 当? ? 大于等于0.5时,预测 y=1 当? ? 小于0 10 2.Sigmoid函数 将?进行逻辑变换:? ? = 1 1+?−? ?′(?) = ( 1 1 + ?−?)′ = ?−? (1 + ?−?)2 = 1 + ?−? − 1 (1 + ?−?)2 = 1 (1 + ?−?) (1 − 1 (1 + ?−?)) = ?(?)(1 − ?(?)) ? ? 11 3.逻辑回归求解 01 分类问题 02 Sigmoid函数0 码力 | 23 页 | 1.20 MB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别第六部分 实战 TensorFlow 验证码识别 扫描二维码 试看/购买《TensorFlow 快速入门与实战》视频课程 • 准备模型开发环境 • 生成验证码数据集 • 输入与输出数据处理 • 模型结构设计 • 模型损失函数设计 • 模型训练过程分析 • 模型部署与效果演示 第六部分 目录 准备模型开发环境 第三方依赖包 数据集生成 • Pillow • captcha 储的数据, 它应该为一般的图像处理工 具提供坚实的基础。 https://github.com/python-pillow/Pillow captcha Catpcha 是一个生成图像和音频验证码的开源工具库。 https://github.com/lepture/captcha from captcha.image import ImageCaptcha from captcha.audio https://github.com/pallets/flask 生成验证码数据集 验证码(CAPTCHA)简介 全自动区分计算机和人类的公开图灵测试(英语:Completely Automated Public Turing test to tell Computers and Humans Apart,简称CAPTCHA),俗称验证码,是一种区分用户是 计算机或人的公共全自动程序。在CAPT0 码力 | 51 页 | 2.73 MB | 1 年前3
Train-Val-Test-交叉验证0 码力 | 13 页 | 1.10 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112−阿兰·图灵 1.1 人工智能 信息技术是人类历史上的第三次工业革命,计算机、互联网、智能家居等技术的普及 极大地方便了人们的日常生活。通过编程的方式,人类可以将提前设计好的交互逻辑交给 机器重复且快速地执行,从而将人类从简单枯燥的重复劳动工作中解脱出来。但是对于需 要较高智能水平的任务,如人脸识别、聊天机器人、自动驾驶等任务,很难设计明确的逻 辑规则,传统的编程方式显得力不从心,而人工智能(Artificial 是可行 的。 怎么实现人工智能是一个非常广袤的问题。人工智能的发展主要经历了三个阶段,每 个阶段都代表了人们从不同的角度尝试实现人工智能的探索足迹。早期,人们试图通过总 结、归纳出一些逻辑规则,并将逻辑规则以计算机程序的方式实现,来开发出智能系统。 但是这种显式的规则往往过于简单,并且很难表达复杂、抽象的概念和规则。这一阶段被 称为推理期。 1970 年代,科学家们尝试通过知识库加推理的方式解决人工智能,通过构建庞大复杂 据中学习规则的研究学科诞生了,称为机器学习,并在 1980 年代成为人工智能中的热门学 预览版202112 第 1 章 人工智能绪论 2 科。 在机器学习中,有一个通过神经网络来学习复杂、抽象逻辑的研究方向,称为神经网 络。神经网络方向的研究经历了两起两落。从 2012 年开始,由于算法效果极为显著,深层 神经网络技术在计算机视觉、自然语言处理、机器人等领域取得了重大突破,部分任务上 甚至0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库Keras 处理超过内存的数据集? . . . . . . . . . . . . . . . . . . . . 32 3.3.10 在验证集的误差不再下降时,如何中断训练? . . . . . . . . . . . . . . . . 32 3.3.11 验证集划分是如何计算的? . . . . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.12 在训练过程中数据是否会混洗? . . . . . . . . . . . . . . . . . . . . . . . . 32 3.3.13 如何在每个 epoch 后记录训练集和验证集的误差和准确率? . . . . . . . . 32 3.3.14 如何「冻结」网络层? . . . . . . . . . . . . . . . . . . . . . . . . . . random.random((1000, timesteps, data_dim)) y_train = np.random.random((1000, num_classes)) # 生成虚拟验证数据 x_val = np.random.random((100, timesteps, data_dim)) y_val = np.random.random((100, num_classes))0 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185 4.10.6 K折交叉验证 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 186 4.10.7 模型选择 . . 定义训练函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 638 13.13.6 训练和验证模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 639 13.13.7 在 Kaggle 上对测试集进行分类并提交结果 定义训练函数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645 13.14.6 训练和验证模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 646 13.14.7 对测试集分类并在Kaggle提交结果0 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-Scikit-learnSelectKBest(score_func, k) 过滤式(Filter),保留得分排名前k的特征(top k方式) fs.RFECV(estimator, scoring=“r2”) 封装式(Wrap- per),结合交叉验证的递归特征消除法,自动选择最优特征个数 fs.SelectFromModel(estimator) 嵌入式(Embedded),从 模型中自动选择特征,任何具有coef_或者 feature_importances_的 y_prob = clf.predict_proba(X_test) 使用决策树分类算法解决二分类问题, y_prob 为每个样本预测为 “0”和“1”类的概率 16 1.Scikit-learn概述 逻辑回归 支持向量机 朴素贝叶斯 K近邻 linear_model.LogisticRegression svm.SVC naive_bayes.GaussianNB neighbors.NearestNeighbors Scikit-learn主要用法 交叉验证及超参数调优 from sklearn.model_selection import cross_val_score clf = DecisionTreeClassifier(max_depth=5) scores = cross_val_score(clf, X_train, y_train, cv=5, scoring=’f1_weighted’) 使用5折交叉验证对决策树模型进行评估,0 码力 | 31 页 | 1.18 MB | 1 年前3
机器学习课程-温州大学-特征工程设置较大、以及每一轮训 练的时间较长, 则很可能算法运行很长时 间都不会停止。 1. LVW 包裹式 4. 特征选择 特征集A 子集A1 误差是否更小 特征数是否更少 保留子集 交叉验证 提取子集 否 误差更大 误差相等 误差更小 是 34 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) ➢ 使用一个基模型来进行多轮训练,每轮 原理:嵌入式特征选择是将特征选择与学习器训练过程融为一体,两 者在同一个优化过程中完成的。即学习器训练过程中自动进行了特征 选择。 常用的方法包括: ➢利用正则化,如L1, L2 范数,主要应用于如线性回归、逻辑回归以及 支持向量机(SVM)等算法;优点:降低过拟合风险;求得的 w 会有 较多的分量为零,即:它更容易获得稀疏解。 ➢使用决策树思想,包括决策树、随机森林、Gradient Boosting 统计研究,2019,36(01) 在 Lasso 中,λ 参数控制了稀疏性: ➢如果 λ 越小,则稀疏性越小,被选择的特征越多 ➢相反 λ 越大,则稀疏性越大,被选择的特征越少 在 SVM 和 逻辑回归中,参数 C 控制了稀疏性: ➢如果 C 越小,则稀疏性越大,被选择的特征越少 ➢如果 C 越大, 则稀疏性越小,被选择的特征越多 常见的嵌入式选择模型: 嵌入式 4. 特征选择 370 码力 | 38 页 | 1.28 MB | 1 年前3
机器学习课程-温州大学-05深度学习-深度学习实践通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集( Dev Set ),用来做 模型选择(model selection),即做模型的最终优化及确定的, 用来辅助我们的模型的构建,即训练超参数,可选; 测试集(Test Set): 为了测试已经训练好的模型的精确度。 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1% (假设百万条数据) 数据集划分 数据集 训练集 验证集 测试集 4 交叉验证 1. 使用训练集训练出10个模型 2. 用10个模型分别对交叉验证集 计算得出交叉验证误差(代价函 数的值) 3. 选取代价函数值最小的模型 4. 用步骤3中选出的模型对测试 集计算得出推广误差(代价函数 的值) 5 数据集制作 PyTor RandomRotation是随机旋转方法。 最后将图像转换为Tensor类型并进 行标准化。 可以将以上方法添加到数据集加载 器中进行批量的数据增强。 16 偏差和方差 训练集误差和交叉验证集误差近似时:偏差/欠拟合 交叉验证集误差远大于训练集误差时:方差/过拟合 x1 x2 x1 x2 x1 x2 Underfitting Good fit Overfitting 17 偏差和方差0 码力 | 19 页 | 1.09 MB | 1 年前3
机器学习课程-温州大学-05机器学习-机器学习实践通过 训练集的数据让我们确定拟合曲线的参数。 验证集(Validation Set):也叫做开发集( Dev Set ),用来做 模型选择(model selection),即做模型的最终优化及确定的, 用来辅助我们的模型的构建,即训练超参数,可选; 测试集(Test Set): 为了测试已经训练好的模型的精确度。 三者划分:训练集、验证集、测试集 机器学习:60%,20%,20%;70%,10%,20% 机器学习:60%,20%,20%;70%,10%,20% 深度学习:98%,1%,1% (假设百万条数据) 1.数据集划分 数据集 训练集 验证集 测试集 5 交叉验证 1. 使用训练集训练出k个模型 2. 用k个模型分别对交叉验证集计算得 出交叉验证误差(代价函数的值) 3. 选取代价函数值最小的模型 4. 用步骤3中选出的模型对测试集计算得出 推广误差(代价函数的值) 6 数据不平衡是指数据集中各类样本数量不均衡的情况 般来说,随着模型复杂度的增加,方 差会逐渐增大,偏差会逐渐减小,在 虚线处,差不多是模型复杂度的最恰 当的选择,其“偏差”和“方差”也 都适度,才能“适度拟合”。 30 偏差和方差 训练集误差和交叉验证集误差近似时:偏差/欠拟合 交叉验证集误差远大于训练集误差时:方差/过拟合 x1 x2 x1 x2 x1 x2 Underfitting Good fit Overfitting 31 偏差和方差0 码力 | 33 页 | 2.14 MB | 1 年前3
共 35 条
- 1
- 2
- 3
- 4













