运维能力 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-11机器学习-降维

机器学习-降维黄海广副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。常说的维数灾难。 5 1.降维概述维数灾难维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中，通常指的是随着特征数量的增多，计算量会变得很大，如特征达到上亿维的话，在进行计算的时候是算不出来的。有的时候，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征的增加先上升后下降。 6 1.降维概述什么是降维？降维(Dimensionality Reduction)是将训练数据中的样本(实例)从高维空间转换到低维空间，该过程与信息论中有损压缩概念密切相关。同时要明白的，不存在完全无损的降维。有很多种算法可以完成对原始数据的降维，在这些方法中，降维是通过对原始数据的线性变换实现的。 7 1.降维概述 • 高维数据增加了运算的难度 • 高维使得学习算法的泛化能力变弱（例如，在最近邻分类器中，

0 码力 | 51 页 | 3.14 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

达观数据陈运文文本智能处理的深度学习技术达观数据CEO 陈运文博士 • 中国计算机学会高级会员， A C M 和 I E E E 学会会员，复旦大学计算机博士和杰出毕业生 • 原腾讯文学高级总监、盛大文学首席数据官、百度核心技术工程师 • 三十项国家技术十五篇国际学术论文，译著《智能 W e b 算法》专注于企业文本挖掘技术和相关应用系统的服务个人简介——达观数据CEO 陈运文达观数据：全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服务，是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司专注于文本挖掘的国际领军人工智能企业证、ISO9001质量管理体系认证、双软认证等最全面的企业服务资质。权威认证的人工智能服务，可充分保障客户业务实践与业务安全 l 覆盖金融、制造、法律、电商、传媒等行业，提升企业文档自动化处理能力为数百家中国知名客户提供完善的文本智能处理服务 01 文本智能处理背景简介 7 文本语音图像人工智能 Voice Image Text 达观专注于人工智能中的文本处理细分领域

0 码力 | 46 页 | 25.61 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

解、喜欢并进入到人工智能行业中来，因此作者试图从分析人工智能中的简单问题入手，一步步地提出设想、分析方案以及实现方案，重温当年科研工作者的发现之路，让读者身临其境式的感受算法设计思想，从而掌握分析问题、解决问题的能力。这种方式也是对读者的基础要求较少的，读者在学习本书的过程中会自然而然地了解算法的相关背景知识，体会到知识是为了解决问题而生的，避免陷入为了学习而学习的窘境。尽管作者试图将读者的基础要求降框架在人工智能行业中的重要地位。本书基于清华大学出版社出版的《TensorFlow 深度学习—深入理解人工智能算法》一书进行二次撰写，代码部分完全基于 PyTorch 进行实现。考虑到本人能力有限、行文仓促，可以预见地，本书会存在部分语句表达不准确、部分素材尚未创作完成、部分参考引用未能及时补充、甚至一些错误出现，因此本书以开源、免费地方式发布，希望一方面能够帮助初学者快速上手深度线性回归 2.5 参考文献第 3 章分类问题 3.1 手写数字图片数据集 3.2 模型构建 3.3 误差计算 3.4 真的解决了吗 3.5 非线性模型 3.6 表达能力 3.7 优化方法 3.8 手写数字图片识别体验 3.9 小结 3.10 参考文献第 4 章 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3

0 码力 | 439 页 | 29.91 MB | 1 年前
3
动手学深度学习 v2.0

54 2.3.5 张量算法的基本性质 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54 2.3.6 降维 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56 2.3.7 点积（Dot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 149 4.5.1 高维线性回归 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 151 4.5.2 从零开始实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 440 11.3.1 一维梯度下降 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 441 11.3.2 多元梯度下降

0 码力 | 797 页 | 29.45 MB | 1 年前
3
谭国富：深度学习在图像审核的应用

的海量人脸、图片、音乐等数据，专注在人脸、图像、音乐、语音、机器学习等领域开展技术研究，并积极推动研究成果在业务中落地产生价值。关于优图实验室人脸识别图像识别音频识别 SACC2017 目录 01 腾讯优图内容审核能力介绍 02 深度学习技术介绍 03 内容审核的扩展和延伸 00 图像审核的行业背景 SACC2017 内容审核 - 行业现状不良信息泛滥，监管猝不及防 Ø 随着互联网的飞速发展和信息量的猛增，过模型调优难度大人力审核疲劳容易发生漏过，人力招聘、管理需要耗费不小成本识别种类完备节约成本节省审核人力减少人工漏审技术诉求：自动识别图片或视频中出现的文字、二维码、logo等内容以及违规人像、淫秽、血腥、暴力、极端主义、恐怖主义图像等，方便平台进行违规处理和风险管控。业务痛点：面对越来越爆发的安全风险，解决办法门槛高，成本高；迫切需要技术解决方案 SACC2017 图像内容审核技术 OCR技术图像分割以及超分辨率技术优图图像技术还包括：图像分类、图像增强、艺术滤镜、图片去水印、图像融合、图像修补等。图像识别技术 01 腾讯优图图像技术能力 SACC2017 内容审核 - 图片鉴黄解决方案区分图像中的色情、性感和正常内容 DeepEye可给出图片属于色情、性感和正常的概率，并结合三者概率给出综合分，通过分数所属区间判断图片性质。

0 码力 | 32 页 | 5.17 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

• 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论  描述模型的学习能力：VC维越大模型越复杂，学习能力越强  机器学习能力 = 数据 + 特征 + 模型 • 数据  海量数据：美团的亿级用户、千万级POI • 特征  大规模离散特征 > 小规模泛化特征 • 模型 • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样  支持推荐、搜索、广告场景常用的深度学习模型支持外部eval工具，计算MAP、NDCG MLX的模型能力 • 提供离线、近线、在线全流程解决方案，各阶段提供扩展方案，降低算法迭代成本； • 支持Online Learning，提供从近线到在线的模型数据通路； • 提供从召回到排序全流程的模型解决方案，为业务提供最佳实践； • 提供系统的平台化工具，为用户提供易用的界面操作； MLX模型能力 MLX平台架构 MLX平台架构 • 基于Worker

0 码力 | 41 页 | 5.96 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

第一步，先从大量的文本集中学习词嵌入。第二步，你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中，比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可以自己选择要不要继续微调，用新的数据调整词嵌入。而言就是? + 1个，其中?个负样本和1个正样本。这也是为什么这个算法计算成本更低，因为只需更新? + 1个逻辑单元， ? + 1个二分类问题，相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? ?? = ? ?? 3 4 σ?=1 10,000 ? ?? 3 4 20 3.Word2Vec 训练流程在训练过程开始之前，我们预先处理我们正在训练模型的文本。在这一步中，内容续写（例如文章续写）整段文本生成产品特色通过随机Mask(即遮挡)数据库文本中的词语或语段，让神经网络自主学习复原被遮挡部分，从而拥有“猜测”缺失内容的能力，产出预训练模型。再通过大规模预训练模型理解上文或给定条件，从概率层面推测最符合要求的输出结果。其本质是借助超大规模的训练参数猜测上下文的过程文本风格主流思路是分离文本属性及文本内容

0 码力 | 44 页 | 2.36 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

微博Feed流排序场景介绍目录 CTR概要介绍数据特征目标模型效果 Ø CTR任务特点 Ø CTR预估常用算法 • LR • GBDT • FM • 大量离散特征、高维稀疏 • 特征关联性挖掘 CTR一般流程业务目标与模型选择 Ø 模型优化目标 • 互动（转发/评论/赞）点击（图片/视频/文章/链接等）阅读时长 Ø 模型选择 • 线性模型LR+特征工程离线评估与线上效果正相关？ • A/B test测试 • 分目标人群测试：地域、活跃度… A B 小流量-实验组小流量-对照组数据对比分析算法架构互动行为点击行为阅读行为能力标签兴趣标签亲密度自然属性账号属性用户特征关键词类型属性 topic 内容标签内容质量内容特征组合特征标签匹配度用户互动率协同特征实时互动率 app互动率微博Feed流排序场景介绍目录为什么选择深度学习 Ø 线性CTR模型 • 优势：简单高效、可解释性强 • 局限性：特征工程繁琐、无法表达高维抽象特征 Ø 深度学习模型（DNN based model） • 优势：泛化能力强表达能力强网络结构灵活 User features Relation features Contextual features Continueous

0 码力 | 21 页 | 2.14 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

稀疏特征：采用one-hot编码，各个菜品、商户、周几等作为特征维，构造稀疏特征 • 降维：PCA降维，减少内存消耗并一定程度上避免过拟合模型 • DNN模型 - DNN深度神经网络学习；通过引入非线性映射，并包含多层感知器，海量的出餐时间训练数据，DNN 更好地学习自身有用的特征 - DNN对特征工程要求较低，自身可以学习有用的特征，PCA降维影响较小，但时间复杂度较高 • XGBoost模型则化参数等进一步避免过拟合 2 获取样本数据过滤数据抽取基础特征组合基础特征，构造组合特征组合基础特征，构造组合特征统计基础信息，构造统计特征独热编码，构造稀疏特征降维决策模型 11 • 骑士体验取餐距离、订单数量、订单组数 • 用户体验订单剩余时间、骑士完成时间、订单准时性 • 配送效率等餐时间、空驶距离、空闲骑士、商圈压力距离的节省：回溯定位异常调度原因，诊断调试算法 • 实时获取调度监控指标 • 及时预警引入人工干预 • 精准模拟实际订单分布情况 • 有效评估调度算法的改进效果 • 合理划分物流范围 • 节省调度运力，提升商户配送能力 • 云端虚拟队列，实现调度指派 • 提升物流效率仿真系统实时监控时光机寻宝系统 1 2 3 4 5 时光机系统—历史数据可视化分析真实再现调度场景细节回溯定位异常调度原因，诊断调试算法

0 码力 | 28 页 | 6.86 MB | 1 年前
3
机器学习课程-温州大学-13深度学习-Transformer

ntion机制每一步计算不依赖于上一步的计算结果，因此可以和CNN一样并行处理。 3.效果好：在Attention 机制引入之前，有一个问题大家一直很苦恼：长距离的信息会被弱化，就好像记忆能力弱的人，记不住过去的事情是一样的。 10 2017年google的机器翻译团队在 NIPS上发表了Attention is all you need的文章，开创性地提出了在序列转录领域，完全抛弃个单词编码时关注输入句子的其他单词。自注意力层的输出会传递到前馈（feed-forward）神经网络中。每个位置的单词对应的前馈神经网络都完全一样（译注：另一种解读就是一层窗口为一个单词的一维卷积神经网络）。解码器中也有编码器的自注意力（self-attention）层和前馈（feed-forward）层。除此之外，这两个层之间还有一个注意力层，用来关注输入句子的相关部分（和seq2seq模型的注意力各种向量或张量是怎样在模型的不同部分中，将输入转化为输出的。像大部分NLP应用一样，我们首先将每个输入单词通过词嵌入算法转换为词向量。每个单词都被嵌入为512维的向量，词嵌入过程只发生在最底层的编码器中。所有的编码器都有一个相同的特点，即它们接收一个向量列表，列表中的每个向量大小为512维。在底层（最开始）编码器中它就是词向量，但是在其他编码器中，它就是下一层编码器的输出（也是一个向量列表）。向量列表大小是我

0 码力 | 60 页 | 3.51 MB | 1 年前
3

共 55 条前往

页

分类

语言

格式