稀疏数据结构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-01机器学习-引言

的目录，这样在之后的使用过程中减少一些莫名的错误。 Python 的环境的安装 54 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 55 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器，列表用[ ]来表示，其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值可以修改，而元组： 1、一个强大的N维数组对象Array； 2、比较成熟的（广播）函数库； 3、用于整合C/C++和Fortran代码的工具包； 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy 配合使用更加方便。 NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。 63 Python模块-Pandas ⚫ 基本数据结构 Series 一维数据结构，包含行索引和数据两个部分 DataFrame 二维数据结构，包含带索引的多列数据，各列的数据类型可能不同 64 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行

0 码力 | 78 页 | 3.69 MB | 1 年前
3
机器学习课程-温州大学-01深度学习-引言

的目录，这样在之后的使用过程中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器，列表用[ ]来表示，其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值可以修改，而元组： 1、一个强大的N维数组对象Array； 2、比较成熟的（广播）函数库； 3、用于整合C/C++和Fortran代码的工具包； 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy 配合使用更加方便。 NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。 64 Python模块-Pandas ⚫ 基本数据结构 Series 一维数据结构，包含行索引和数据两个部分 DataFrame 二维数据结构，包含带索引的多列数据，各列的数据类型可能不同 65 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行

0 码力 | 80 页 | 5.38 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

One-hot 编码为[1,0,0,… ,0]，图片 2 的 One- hot 编码为[0,0,1, … ,0]，图片 9 的 One-hot 编码为[0,0,0, … ,1]。One-hot 编码是非常稀疏 (Sparse)的，相对于数字编码来说，占用较多的存储空间，因此一般在存储时还是采用数字编码方式，仅在计算时，根据需要把数字编码转换成 One-hot 编码，通过 one_hot 函数即可实现。现在回到手写数字图片识别任务，输入是一张打平后的图片向量? ∈ ?784，输出是一个长度为 10 的向量 ∈ ?10，图片的真实标签?经过 One-hot 编码后变成长度为 10 的非 0 即 1 的稀疏向量? ∈ {0,1}10。预测模型采用多输入、多输出的线性模型 = ?? + ?，其中模型的输出记为输入的预测值，通常希望越接近真实标签?越好。一般把输入经过一次 (线性)变换叫作一层网络。列，每个位置有 RGB 3 个通道的数据；张量的存储体现在张量在内存上保存为一段连续的内存区域，它类似于向量的一维结构，无法表达高维预览版202112 4.7 维度变换 23 数据结构。因此对于同样的存储，可以有不同的维度理解方式，比如上述张量?，可以在不改变张量的存储的条件下，将张量?理解为 2 个样本，每个样本的特征是长度 48 的向量，甚至还可以理解为 4 个样本，每个样本的特征是长度为

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

Python 实现。Keras 没有特定格式的单独配置文件。模型定义在 Python 代码中，这些代码紧凑，易于调试，并且易于扩展。 1.3 快速开始：30 秒上手 Keras Keras 的核心数据结构是 model，一种组织网络层的方式。最简单的模型是 Sequential 顺序模型，它是由多个网络层线性堆叠的栈。对于更复杂的结构，你应该使用 Keras 函数式 API，它允许构建任意的神经网络图。两次）。如未提供，将自动生成。 • dtype: 输入所期望的数据类型，字符串表示 (float32, float64, int32…) • sparse: 一个布尔值，指明需要创建的占位符是否是稀疏的。 • tensor: 可选的可封装到 Input 层的现有张量。如果设定了，那么这个层将不会创建占位符张量。返回一个张量。例 # 这是 Keras 中的一个逻辑回归 x = 1（整数）。异常 • ValueError: 如果 value 既不是 0 也不是 1。 is_sparse keras.backend.is_sparse(tensor) 判断张量是否是稀疏张量。参数 • tensor: 一个张量实例。返回布尔值。例子 >>> from keras import backend as K >>> a = K.placeholder((2

0 码力 | 257 页 | 1.19 MB | 1 年前
3
动手学深度学习 v2.0

AdaGrad算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 11.7.1 稀疏特征和学习率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 11.7.2 预处理 . . == B.T 2.3. 线性代数 53 tensor([[True, True, True], [True, True, True], [True, True, True]]) 矩阵是有用的数据结构：它们允许我们组织具有不同模式的数据。例如，我们矩阵中的行可能对应于不同的房屋（数据样本），而列可能对应于不同的属性。曾经使用过电子表格软件或已阅读过 2.2节的人，应该对此很熟悉。因此，阵中的行向量更为常见。后面的章节将讲到这点，这种约定将支持常见的深度学习实践。例如，沿着张量的最外轴，我们可以访问或遍历小批量的数据样本。 2.3.4 张量就像向量是标量的推广，矩阵是向量的推广一样，我们可以构建具有更多轴的数据结构。张量（本小节中的 “张量”指代数对象）是描述具有任意数量轴的n维数组的通用方法。例如，向量是一阶张量，矩阵是二阶张量。张量用特殊字体的大写字母表示（例如，X、Y和Z），它们的索引机制（例如xijk和[X]1

0 码力 | 797 页 | 29.45 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

IEG，CSIG，QQ⾳乐，阅⽂等业务的部分推荐场景 � 袁镱博⼠，专家⼯程师 � 研究⽅向：机器学习系统，云计算，⼤数据系统 � 负责腾讯平台与内容事业群（PCG）技术中台核⼼引擎：⽆量系统。⽀持⼤规模稀疏模型训练，上线与推理提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结基于深度学习模型的推荐流程，场景与⽬标 Serving系统（百） ID/tag/交叉特征 (千，千万) ⼩特征（个）中型特征（⼗） � 2.2 hotkey现象，且训练与推理的 hotkey⾼度重合百万级稠密交叉参数千亿级稀疏输⼊层参数单个样本命中的key ⽐如：性别，年龄等取值少的特征；热⻔⽂章的特征，活跃⽤户的特征推荐系统模型上线在线推理模型训练⽂章新闻视频 Item User Item特征时） � Feature 2（数据的时空特点） 2.1 短时间内只有部分item和user被命中，只有部分参数被⽤到 � Feature 3（机器学习的特点） Embedding以稀疏的⽅式表达信息⼤规模推荐模型深度学习系统基本解决维度分布式系统⼤规模模型优化算法 1. ⾼性能 2. 效果⽆损的优化 � Feature 1（基本特点） � Feature

0 码力 | 22 页 | 6.76 MB | 1 年前
3
机器学习课程-温州大学-特征工程

较多的分量为零，即：它更容易获得稀疏解。 ➢使用决策树思想，包括决策树、随机森林、Gradient Boosting 等。嵌入式 4. 特征选择 36 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 在 Lasso 中，λ 参数控制了稀疏性： ➢如果 λ 越小，则稀疏性越小，被选择的特征越多 ➢相反 λ 越大，则稀疏性越大，被选择的特征越少越大，则稀疏性越大，被选择的特征越少在 SVM 和逻辑回归中，参数 C 控制了稀疏性： ➢如果 C 越小，则稀疏性越大，被选择的特征越少 ➢如果 C 越大，则稀疏性越小，被选择的特征越多常见的嵌入式选择模型：嵌入式 4. 特征选择 37 参考文献 1. Prof. Andrew Ng. Machine Learning. Stanford University 2. 《统计学习方法》，清华大学出版社，李航著，2019年出版

0 码力 | 38 页 | 1.28 MB | 1 年前
3
经典算法与人工智能在外卖物流调度中的应用

特征工程 • 特征 = 基础特征 + 组合特征 + 统计特征 + 稀疏特征 • 基础特征：订单信息，如商户id、菜品名称、下单时间、未出餐订单、前序订单误差等 • 组合特征：核心基础特征的组合 • 统计特征：订单信息的数据统计特征，如均值、方差 • 稀疏特征：采用one-hot编码，各个菜品、商户、周几等作为特征维，构造稀疏特征 • 降维：PCA降维，减少内存消耗并一定程度上避免过拟合通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据过滤数据抽取基础特征组合基础特征，构造组合特征组合基础特征，构造组合特征统计基础信息，构造统计特征独热编码，构造稀疏特征降维决策模型 11 • 骑士体验取餐距离、订单数量、订单组数 • 用户体验订单剩余时间、骑士完成时间、订单准时性 • 配送效率等餐时间、空驶距离、空闲骑士、商圈压力

0 码力 | 28 页 | 6.86 MB | 1 年前
3
微博在线机器学习和深度学习实践-黄波

基础模型，对特征工程依赖较强 • FM：大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL：调节学习率，突出低频特征，非batch优化 • Adagrad : 调节学习率，突出低频特征，实现简单 • SGD：参数少，效率高，固定学习率 • ID特征处理 • Hash：BKDRhash/CityHash，ID高维度稀疏+实时 3 在线机器学习-实时模型训练练与离线训练周期模型融合 • 模型结构训练与推理兼容：在线PS与离线PS模型结构兼容，自动模型参数转换 • 稳定性优化 • 模型快照：基于ps-scheduler的周期模型版本探测与保存，模型稀疏化分片存储 • 冷备容灾：基于checkpoint机制(Local模式&Remote模式)，实现参数服务的高可用，支持基于模型的异构集群迁移，支持集群扩缩容 • 性能优化 • 通信优化：数 • 指标提升主要来源于Embedding特征保留了更多原始信息，避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相比于传统协同过滤MF等，稀疏样本下表现极好 • 同时该特征可用于排序部分特征输入 • 深度模型效果对比 • DeepFM相比于FM模型，相关指标提升4+% • Wide&Deep相比于LR模型，相关指标提升5+% •

0 码力 | 36 页 | 16.69 MB | 1 年前
3
机器学习课程-温州大学-05深度学习-深度学习实践

正则化 ??正则化可以产生稀疏模型图上面中的蓝色轮廓线是没有正则化损失函数的等高线，中心的蓝色点为最优解，左图、右图分别为??、??正则化给出的限制。可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。 ??正则化给出的最优解w*是使解更加靠近某些轴,而其它的轴则为0,所以??正则化能使得到的参数稀疏化。 ??正则化是指在损失函指在损失函数中加入权值向量w的绝对值之和， ??的功能是使权重稀疏在损失函数中加入权值向量w的平方和，??的功能是使权重平滑。 ?(?) = 1 ? σ?=1 ? ? ̰? ? , ? ? + ? 2? σ?=1 ? | ??| ??正则化可以防止过拟合 ?(?) = 1 ? σ?=1 ? ? ̰? (?) , ?(?) + ? 2? σ?=1 ? ?

0 码力 | 19 页 | 1.09 MB | 1 年前
3

共 24 条前往

页

分类

语言

格式

机器学习课程-温州大学-01机器学习-引言

机器学习课程-温州大学-01深度学习-引言

【PyTorch深度学习-龙龙老师】-测试版202112

Keras: 基于 Python 的深度学习库

动手学深度学习 v2.0

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

机器学习课程-温州大学-特征工程

经典算法与人工智能在外卖物流调度中的应用

微博在线机器学习和深度学习实践-黄波

机器学习课程-温州大学-05深度学习-深度学习实践