机器学习课程-温州大学-01机器学习-引言的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 54 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 55 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 : 1、一个强大的N维数组对象Array; 2、比较成熟的(广播)函数库; 3、用于整合C/C++和Fortran代码的工具包; 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy 配合使用更加方便。 NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、 矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融 函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分 析环境的重要因素之一。 63 Python模块-Pandas ⚫ 基本数据结构 Series 一维数据结构,包含行索 引和数据两个部分 DataFrame 二维数据结构,包含 带索引的多列数据, 各列的数据类型可能 不同 64 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言的目录,这样在之后的使用过程 中减少一些莫名的错误。 Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 : 1、一个强大的N维数组对象Array; 2、比较成熟的(广播)函数库; 3、用于整合C/C++和Fortran代码的工具包; 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy 配合使用更加方便。 NumPy(Numeric Python)提供了许多高级的数值编程工具,如:矩阵数据类型、 矢量处理,以及精密的运算库。专为进行严格的数字处理而产生。多为很多大型金融 函数和方法。你很快就会发现,它是使Python成为强大而高效的数据分 析环境的重要因素之一。 64 Python模块-Pandas ⚫ 基本数据结构 Series 一维数据结构,包含行索 引和数据两个部分 DataFrame 二维数据结构,包含 带索引的多列数据, 各列的数据类型可能 不同 65 Python模块-Pandas ⚫ 数据索引 df[5:10] 通过切片方式选取多行0 码力 | 80 页 | 5.38 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112One-hot 编码为[1,0,0,… ,0],图片 2 的 One- hot 编码为[0,0,1, … ,0],图片 9 的 One-hot 编码为[0,0,0, … ,1]。One-hot 编码是非常稀疏 (Sparse)的,相对于数字编码来说,占用较多的存储空间,因此一般在存储时还是采用数字 编码方式,仅在计算时,根据需要把数字编码转换成 One-hot 编码,通过 one_hot 函数即可 实现。 现在回到手写数字图片识别任务,输入是一张打平后的图片向量? ∈ ?784,输出是一 个长度为 10 的向量 ∈ ?10,图片的真实标签?经过 One-hot 编码后变成长度为 10 的非 0 即 1 的稀疏向量? ∈ {0,1}10。预测模型采用多输入、多输出的线性模型 = ?? + ?,其中 模型的输出记为输入的预测值 ,通常希望 越接近真实标签?越好。一般把输入经过一次 (线性)变换叫作一层网络。 列,每个位置有 RGB 3 个通道的数据;张量的存储体 现在张量在内存上保存为一段连续的内存区域,它类似于向量的一维结构,无法表达高维 预览版202112 4.7 维度变换 23 数据结构。因此对于同样的存储,可以有不同的维度理解方式,比如上述张量?,可以在 不改变张量的存储的条件下,将张量?理解为 2 个样本,每个样本的特征是长度 48 的向 量,甚至还可以理解为 4 个样本,每个样本的特征是长度为0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库Python 实现。Keras 没有特定格式的单独配置文件。模型定义在 Python 代码中,这 些代码紧凑,易于调试,并且易于扩展。 1.3 快速开始:30 秒上手 Keras Keras 的核心数据结构是 model,一种组织网络层的方式。最简单的模型是 Sequential 顺 序模型,它是由多个网络层线性堆叠的栈。对于更复杂的结构,你应该使用 Keras 函数式 API, 它允许构建任意的神经网络图。 两次)。如未提供,将自动生成。 • dtype: 输入所期望的数据类型,字符串表示 (float32, float64, int32…) • sparse: 一个布尔值,指明需要创建的占位符是否是稀疏的。 • tensor: 可选的可封装到 Input 层的现有张量。如果设定了,那么这个层将不会创建占位 符张量。 返回 一个张量。 例 # 这是 Keras 中的一个逻辑回归 x = 1(整数)。 异常 • ValueError: 如果 value 既不是 0 也不是 1。 is_sparse keras.backend.is_sparse(tensor) 判断张量是否是稀疏张量。 参数 • tensor: 一个张量实例。 返回 布尔值。 例子 >>> from keras import backend as K >>> a = K.placeholder((20 码力 | 257 页 | 1.19 MB | 1 年前3
动手学深度学习 v2.0AdaGrad算法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 11.7.1 稀疏特征和学习率 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 476 11.7.2 预处理 . . == B.T 2.3. 线性代数 53 tensor([[True, True, True], [True, True, True], [True, True, True]]) 矩阵是有用的数据结构:它们允许我们组织具有不同模式的数据。例如,我们矩阵中的行可能对应于不同的 房屋(数据样本),而列可能对应于不同的属性。曾经使用过电子表格软件或已阅读过 2.2节的人,应该对此 很熟悉。因此, 阵中的行向量更为常见。后面的章节将讲到这点,这种约定将支持常见的深度学习实践。例如,沿着张量的 最外轴,我们可以访问或遍历小批量的数据样本。 2.3.4 张量 就像向量是标量的推广,矩阵是向量的推广一样,我们可以构建具有更多轴的数据结构。张量(本小节中的 “张量”指代数对象)是描述具有任意数量轴的n维数组的通用方法。例如,向量是一阶张量,矩阵是二阶张 量。张量用特殊字体的大写字母表示(例如,X、Y和Z),它们的索引机制(例如xijk和[X]10 码力 | 797 页 | 29.45 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 (百) ID/tag/交叉特征 (千,千万) ⼩特征 (个) 中型特征 (⼗) � 2.2 hotkey现象,且训练与推理的 hotkey⾼度重合 百万级稠密 交叉参数 千亿级 稀疏输⼊ 层参数 单个样本命 中的key ⽐如:性别,年龄等取值少的特征; 热⻔⽂章的特征,活跃⽤户的特征 推荐系统 模型上线 在线推理 模型训练 ⽂章 新闻 视频 Item User Item特征 时) � Feature 2(数据的时空特点) 2.1 短时间内只有部分item和user被 命中,只有部分参数被⽤到 � Feature 3(机器学习的特点) Embedding以稀疏的⽅式表达信息 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature0 码力 | 22 页 | 6.76 MB | 1 年前3
机器学习课程-温州大学-特征工程较多的分量为零,即:它更容易获得稀疏解。 ➢使用决策树思想,包括决策树、随机森林、Gradient Boosting 等。 嵌入式 4. 特征选择 36 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 在 Lasso 中,λ 参数控制了稀疏性: ➢如果 λ 越小,则稀疏性越小,被选择的特征越多 ➢相反 λ 越大,则稀疏性越大,被选择的特征越少 越大,则稀疏性越大,被选择的特征越少 在 SVM 和 逻辑回归中,参数 C 控制了稀疏性: ➢如果 C 越小,则稀疏性越大,被选择的特征越少 ➢如果 C 越大, 则稀疏性越小,被选择的特征越多 常见的嵌入式选择模型: 嵌入式 4. 特征选择 37 参考文献 1. Prof. Andrew Ng. Machine Learning. Stanford University 2. 《统计学习方法》,清华大学出版社,李航著,2019年出版0 码力 | 38 页 | 1.28 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用特征工程 • 特征 = 基础特征 + 组合特征 + 统计特征 + 稀疏特征 • 基础特征:订单信息,如商户id、菜品名称、下单时间、未出餐订单、前序订单误差等 • 组合特征:核心基础特征的组合 • 统计特征:订单信息的数据统计特征,如均值、方差 • 稀疏特征:采用one-hot编码,各个菜品、商户、周几等作为特征维,构造稀疏特征 • 降维:PCA降维,减少内存消耗并一定程度上避免过拟合 通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据 过滤数据 抽取基础特征 组合基础特征,构造组合特征 组合基础特征,构造组合特征 统计基础信息,构造统计特征 独热编码,构造稀疏特征 降维 决策模型 11 • 骑士体验 取餐距离、订单数量、订单组数 • 用户体验 订单剩余时间、骑士完成时间、 订单准时性 • 配送效率 等餐时间、空驶距离、空闲骑士、 商圈压力0 码力 | 28 页 | 6.86 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 • SGD: 参数少,效率高,固定学习率 • ID特征处理 • Hash:BKDRhash/CityHash,ID高维度稀疏+实时 3 在线机器学习-实时模型训练 练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线PS与离线PS模型结构兼容,自动模型参数转换 • 稳定性优化 • 模型快照:基于ps-scheduler的周期模型版本探测与保存,模型稀疏化分片存储 • 冷备容灾:基于checkpoint机制(Local模式&Remote模式),实现参数服务的高可用,支持基于模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数 • 指标提升主要来源于Embedding特征保留了更多原始信息,避免了标签带来的信息损失 • User/Item Embedding 协同召回 • Item2vec相比于传统协同过滤MF等,稀疏样本下表现极好 • 同时该特征可用于排序部分特征输入 • 深度模型效果对比 • DeepFM相比于FM模型,相关指标提升4+% • Wide&Deep相比于LR模型,相关指标提升5+% •0 码力 | 36 页 | 16.69 MB | 1 年前3
机器学习课程-温州大学-05深度学习-深度学习实践正则化 ??正则化可以产生稀疏模型 图上面中的蓝色轮廓线是没有正则化损失函数的等高线,中心的蓝色点为最优解,左图、右图分别为??、??正则化给出的限制。 可以看到在正则化的限制之下, ??正则化给出的最优解w*是使解更加靠近原点,也就是说??正则化能降低参数范数的总和。 ??正则化给出的最优解w*是使解更加靠近某些轴,而其它的轴则为0,所以??正则化能使得到的参数稀疏化。 ??正则化是 指在损失函 指在损失函 数中加入权 值向量w的绝 对值之和, ??的功能是 使权重稀疏 在损失函数 中加入权值 向量w的平 方和,??的 功能是使权 重平滑。 ?(?) = 1 ? σ?=1 ? ? ̰? ? , ? ? + ? 2? σ?=1 ? | ??| ??正则化可以防止过拟合 ?(?) = 1 ? σ?=1 ? ? ̰? (?) , ?(?) + ? 2? σ?=1 ? ?0 码力 | 19 页 | 1.09 MB | 1 年前3
共 24 条
- 1
- 2
- 3













