多维度分析 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

维度变换

Tensor维度变换主讲人：龙良曲 Operation ▪ View/reshape ▪ Squeeze/unsqueeze ▪ Transpose/t/permute ▪ Expand/repeat 2 View reshape ▪ Lost dim information 3 Flexible but prone to corrupt 4 Squeeze v.s. unsqueeze

0 码力 | 16 页 | 1.66 MB | 1 年前
3
Chatbots 中对话式交互系统的分析与应用

总结：三个Bot框架 • IR-Bot（成熟度：） • 基于检索/排序的流程，历史悠久，技术成熟 • 引入深度学习，计入长效依赖，生成更好的语句表达 • Task-Bot（成熟度：） • 解决任务型多轮问答 • 深度学习端到端？ • Chitchat-Bot（成熟度：） • 开域聊天 • 深度学习在NLP里的新舞台 • 通向强人工智能之路？爱因互动 EIN+: 深度定制对话服务爱因互动对话交互的价值：在哪儿/在那儿 • 行业早期，价值待验证 • “能帮我把转化率提升50%吗？” • 需求界定师：砍掉不合实际的需求 • “能不能把我的销售、客服全换成机器人？” • “能不能通过分析上课视频，来解答学生的问题？” • 对话设计师：怎么更优雅地达到目的 • “公交车上你会给老人让座吗？” • 做能做且有价值的事，努力把不能做的事变成可做的 Thanks 爱因互动，欢迎你的加入

0 码力 | 39 页 | 2.24 MB | 1 年前
3
动手学深度学习 v2.0

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 329 8.7.1 循环神经网络的梯度分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 330 8.7.2 通过时间反向传播的细节 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 453 11.4.3 凸目标的收敛性分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454 11.4.4 随机梯度和有限样本 . . . 实际实验 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 471 11.6.3 理论分析 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474 11.7 AdaGrad算法

0 码力 | 797 页 | 29.45 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

这是一本面向人工智能，特别是深度学习初学者的书，本书旨在帮助更多的读者朋友了解、喜欢并进入到人工智能行业中来，因此作者试图从分析人工智能中的简单问题入手，一步步地提出设想、分析方案以及实现方案，重温当年科研工作者的发现之路，让读者身临其境式的感受算法设计思想，从而掌握分析问题、解决问题的能力。这种方式也是对读者的基础要求较少的，读者在学习本书的过程中会自然而然地了解算法的相关背景知识，体会到知关英文文献时，不至于感到陌生。尽管每天都有深度学习相关算法论文的发布，但是作者相信，深度学习的核心思想和基础理论是共通的。本书已尽可能地涵盖其中基础、主流并且前沿的算法知识，但是仍然有很多算法无法涵盖，读者学习完本书后，可以自行搜索相关方向的研究论文或资料，进一步学习。深度学习是一个非常前沿和广袤的研究领域，鲜有人士能够对每一个研究方向都有深刻的理解。作者自认才疏学浅，略懂 PyTorch 基础 4.1 数据类型 4.2 数值精度 4.3 待优化张量 4.4 创建张量预览版202112 4.5 张量的典型应用 4.6 索引与切片 4.7 维度变换 4.8 Broadcasting 4.9 数学运算 4.10 前向传播实战 4.11 参考文献第 5 章 PyTorch 进阶 5.1 合并与分割 5.2 数据统计

0 码力 | 439 页 | 29.91 MB | 1 年前
3
机器学习课程-温州大学-11机器学习-降维

2022年02月机器学习-降维黄海广副教授 2 本章目录 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 3 1.降维概述 01 降维概述 02 SVD(奇异值分解) 03 PCA(主成分分析) 4 1.降维概述维数灾难(Curse of Dimensionality)：通常是指在涉及到向量的计算的问题中，随着维数的增加，计算量呈指数倍增长的一种现象。加搜寻良好解决方案的困难。这个问题就是我们常说的维数灾难。 5 1.降维概述维数灾难维数灾难涉及数字分析、抽样、组合、机器学习、数据挖掘和数据库等诸多领域。在机器学习的建模过程中，通常指的是随着特征数量的增多，计算量会变得很大，如特征达到上亿维的话，在进行计算的时候是算不出来的。有的时候，维度太大也会导致机器学习性能的下降，并不是特征维度越大越好，模型的性能会随着特征的增加先上升后下降。 6 1.降维概述高维数据增加了运算的难度 • 高维使得学习算法的泛化能力变弱（例如，在最近邻分类器中，样本复杂度随着维度成指数增长），维度越高，算法的搜索难度和成本就越大。 • 降维能够增加数据的可读性，利于发掘数据的有意义的结构为什么要降维 8 1.降维概述 1.减少冗余特征，降低数据维度 2.数据可视化降维的主要作用 9 1.降维概述减少冗余特征假设我们有两个特征： ?1:长度用厘米表示的身高；

0 码力 | 51 页 | 3.14 MB | 1 年前
3
机器学习课程-温州大学-特征工程

相关概念 6 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 项目特征提取特征选择共同点都从原始特征中找出最有效的特征都能帮助减少特征的维度、数据冗余区别 ➢ 强调通过特征转换的方式得到一组具有明显物理或统计意义的特征 ➢ 有时能发现更有意义的特征属性 ➢ 从特征集合中挑选一组具有明显物理或统计意义的特征子集方法：经验、属性分割和结合操作：使用混合属性或者组合属性来创建新的特征，或是分解或切分原有的特征来创建新的特征 2. 特征构建在原始数据集中的特征的形式不适合直接进行建模时，使用一个或多个原特征构造新的特征可能会比直接使用原有特征更为有效。 9 归一化（最大 - 最小规范化） ?∗ = ? − ?min ?max − ?min 将数据映射到[0,1]区间 Z-Score标准化 84.0] 4 (84.0, 99.0] 4 13 2. 特征构建 • 聚合特征构造主要通过对多个特征的分组聚合实现，这些特征通常来自同一张表或者多张表的联立。 • 聚合特征构造使用一对多的关联来对观测值分组，然后计算统计量。 • 常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、标准差、方差和频数等。聚合特征构造 14 2. 特征构建相对于聚合特征构造依赖

0 码力 | 38 页 | 1.28 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

• 当前配送的繁忙程度 • 天气情况.. 1 2 3 提纲 4 外卖订单的智能调度系统一. 智能调度系统的大数据分析监控二. 智能调度系统中的人工智能三. 提纲 5 外卖订单的智能调度系统一. 智能调度系统的大数据分析监控二. 智能调度系统中的人工智能三. 外卖订单智能调度系统发展历程 6 人工派单模式 • 调度员根据订单地址和骑士订单剩余时间、骑士完成时间、订单准时性 • 配送效率等餐时间、空驶距离、空闲骑士、商圈压力距离的节省：订单组与骑士打分：根据商圈压力调整： 3 分配方案 12 Greedy + 多轮KM算法分配方案 • Greedy分配解决特殊业务需求相关 • KM算法找到其余全局最优的分配方案订单骑士订单骑士 4 KM求解骑士和订单全局最优的分配 • 调度系统先对骑士和订单组（根据骑士的位置、身上的单量重复（2）（3）直到找到相等子图的完备匹配供需平衡 13 5.1 配送时长预估模型 • 基于现有状况、订单增速、消化速度、天气、当前手段等多维特征，使用XGBoost模型回归预测未来五分钟进单的平均配送时长 • 分商圈、分时段、多模型的精细化预估 • 分布式、多线程、并行计算最佳分割点，满足海量数据的实时性要求 • 在供需失衡之前，即实施调控手段 5 供需平衡

0 码力 | 28 页 | 6.86 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

数据处理点击行为日志阅读行为日志曝光行为日志数据过滤样本拼接定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光，互动，点击，真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制，先到先走 • 定时轮寻，最长N分钟等待 • Kafka 堆积监控，实时报警 • 如何解决内存问题 • 调整内存参数自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练：Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD atch优化 • Adagrad : 调节学习率，突出低频特征，实现简单 • SGD：参数少，效率高，固定学习率 • ID特征处理 • Hash：BKDRhash/CityHash，ID高维度稀疏+实时 3 在线机器学习-实时模型训练 serving serving server server server worker Model Serving System Serving

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

第一步，先从大量的文本集中学习词嵌入。第二步，你可以用这些词嵌入模型把它迁移到你的新的只有少量标注训练集的任务中，比如说用这个300维的词嵌入来表示你的单词。这样做的一个好处就是你可以用更低维度的特征向量代替原来的10000维的one-hot向量，现在你可以用一个300维更加紧凑的向量。第三步，当你在你新的任务上训练模型时，在你的命名实体识别任务上，只有少量的标记数据集上，你可并不是每次迭代都训练全部10,000个，我们只训练其中的5个，我们要训练对应真正目标词那一个分类器，再训练 4个随机选取的负样本，这就是? = 4的情况。所以不使用一个巨大的10,000维度的softmax，因为计算成本很高，而是把它转变为10,000个二分类问题，每个都很容易计算，每次迭代我们要做的只是训练它们其中的5个，一般而言就是? + 1个，其中?个负样本和1个正样本。这也是为什么 ,000）以及哪些词属于它。在训练阶段的开始，我们创建两个矩阵 - Embedding矩阵和Context 矩阵。这两个矩阵在我们的词汇表中嵌入了每个单词（这vocab_size是他们的维度之一）。第二个维度是我们希望每次嵌入的时间长度（embedding_size- 300是一个常见值）。 21 3.Word2Vec 训练流程在训练过程开始时，我们用随机值初始化这些矩阵。然后我们

0 码力 | 44 页 | 2.36 MB | 1 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

中的行数。有很多方法可以查看矩阵乘法，我们将从检查一些特殊情况开始。 2.1 向量-向量乘法给定两个向量 , 通常称为向量内积或者点积，结果是个实数。注意：始终成立。给定向量 , (他们的维度是否相同都没关系)，叫做向量外积 , 当的时候，它是一个矩阵。举一个外积如何使用的一个例子：让表示一个维向量，其元素都等于1，此外，考虑矩阵，其列全部等于某个向量。我们可以使用外积紧凑地表示矩阵我们用通常用行表示而用列表示。或者，我们可以用列表示，用行表示，这时是求外积的和。公式如下：换句话说，等于所有的的第列和第行的外积的和。因此，在这种情况下，和，外积的维度是，与的维度一致。其次，我们还可以将矩阵 - 矩阵乘法视为一组矩阵向量积。如果我们把用列表示，我们可以将的列视为和的列的矩阵向量积。公式如下：这里的第列由矩阵向量乘积给出，右边的向量为节开头给出的初始定义（在一行数学中）之后。这些不同方法的直接优势在于它们允许您在向量的级别/单位而不是标量上进行操作。为了完全理解线性代数而不会迷失在复杂的索引操作中，关键是要用尽可能多的概念进行操作。实际上所有的线性代数都处理某种矩阵乘法，花一些时间对这里提出的观点进行直观的理解是非常必要的。除此之外，了解一些更高级别的矩阵乘法的基本属性是很有必要的：矩阵乘法结合律:

0 码力 | 19 页 | 1.66 MB | 1 年前
3

共 64 条前往

页

分类

语言

格式