机器学习课程-温州大学-特征工程方法:经验、属性分割和 结合 操作:使用混合属性或者 组合属性来创建新的特征 ,或是分解或切分原有的 特征来创建新的特征 2. 特征构建 在原始数据集中的特征 的形式不适合直接进行 建模时,使用一个或多 个原特征构造新的特征 可能会比直接使用原有 特征更为有效。 9 归一化(最大 - 最小规范化) ?∗ = ? − ?min ?max − ?min 将数据映射到[0,1]区间 Z-Score标准化 84.0] 4 (84.0, 99.0] 4 13 2. 特征构建 • 聚合特征构造主要通过对多个特征的分组聚合实现,这些特征通常来 自同一张表或者多张表的联立。 • 聚合特征构造使用一对多的关联来对观测值分组,然后计算统计量。 • 常见的分组统计量有中位数、算术平均数、众数、最小值、最大值、 标准差、方差和频数等。 聚合特征构造 14 2. 特征构建 相对于聚合特征构造依赖 Analysis,独立成分分析) ICA独立成分分析,获得的是相互独立的属性。ICA算法本质寻找一 个线性变换 ? = ??,使得 ? 的各个特征分量之间的独立性最大。 PCA 对数据 进行降维 ICA 来从多 个维度分离 出有用数据 步骤 PCA 是 ICA 的数据预处理方法 降维 3. 特征提取 20 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01)0 码力 | 38 页 | 1.28 MB | 1 年前3
阿里云上深度学习建模实践-程孟力训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化 标准化模型库 标准化解决方案 1.方案复杂 PAI-Rec – 推荐引擎 BE召回/Hologres hot x2i vec 排序 粗排 精排 重排 MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索 冷启动召 回 冷启动排 序 Pipeline1 Pipeline2 标准化: Standard Solutions 标准化:0 码力 | 40 页 | 8.51 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 自动化监控与修复系统 • Checkpoint 节点异常修复 3 在线机器学习-实时样本生成 • 在线机器学习模型训练:Flink/Blink+WeiPS 样本生成和特征处理 1.配置化 2.多标签样本 3.支持高维HASH 训练预处理 1.标签选择 2.标签UDF 3.样本过滤 4.特征过滤 模型训练 1.支持回归和分类 2.支持LR、FM、 DeepFM等模型 3.支持SGD HDFS Param Server System Model Serving System 3 在线机器学习-参数服务器 • 参数规模 • 支持百亿特征维度,千亿参数 • 模型版本 • 多模型多版本:多组实验并行执行,提高实验迭代效率 • 在线版本切换:基于ZK的版本感知机制,动态进行版本切换,实现BASE模型的热更新,实时训练与离线训练周期模型融合 • 模型结构训练与推理兼容:在线0 码力 | 36 页 | 16.69 MB | 1 年前3
超大规模深度学习在美团的应用-余建平提供系统的平台化工具,为用户提供易用的界面操作; MLX模型能力 MLX平台架构 MLX平台架构 • 基于Worker + PS架构搭建 • Worker 模型计算引擎(Engine) 计算图框架(Graph) • 模型计算引擎Engine 模型结构处理 与PS通信交换模型参数 计算图的计算 • 计算图框架Graph 计算逻辑抽象op,通过op组合形成模型结构 Ps分布式分片的均衡,避免分片大小不一致 NN网络矩阵按行切分,解决请求包不均衡问题 特征按照Hash方式分布式存储 • 模型并行调超参 grid search random search PS的多模型训练 • 提高内存使用效率 model group内共享特征key的存储 • 超大规模模型 -> 高扇出的分布式PS • 长尾效应:单个分片的抖动(网络、CPU)对请求影响变大 单分片4个9的可用性 Learning对数据流的要求 不重不丢:重复的数据会使模型有偏,数据的缺失 会使模型丢失重要信息 数据有序性:数据乱序会导致样本穿越的现象 • Log Join框架 双流拼接框架,通过组合方式支持多流拼接 基于Event Time的Window机制拼接方式 基于Low Watermark解决流乱序、流延迟等流式常 见问题 流式拼接框架 • Low Watermark机制 定义了流式数据的时钟,不可逆性0 码力 | 41 页 | 5.96 MB | 1 年前3
谭国富:深度学习在图像审核的应用微云相册识别,广点通广告识别,顺丰快递单据识别,微云文本 识别等 SACC2017 更多图像定制识别功能 l 图标识别 Ø 图标形式:水印、二维码、条形码、logo等。并可根 据业务需求定制。 Ø 基于团队自研的深度识别引擎,核心算法与基础模型 经过多轮优化,可以准确快速地识别图片中所包含的 各类图标 l 烟雾,吸烟识别 Ø 基于视频直播监管需求, 提供吸烟,烟雾,涉嫌吸毒 等场景的识别能力 SACC2017 FP32 (TFLOPS) 10.6 12 14 FP16 (TFLOPS) NA NA 113 Tensor (TFLOPS) NA NA 112 TDP 250W 250W 250W 预算多V100, 预算少1080 TI SACC2017 深度学习 – 打通训练和应用的闭环 RapidFlow 训练平台 底层硬件加速 操作系统 应用场景 add conv w x 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网 络波动引起的异常 • 监控任务运行状况,当任务发生异常时,选 择不同的重启策略 • 集群管理与监控 • 节点心跳异常告警 • 运维工具化,快速屏蔽/启动异常机器0 码力 | 32 页 | 5.17 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . . . . 6 2.6 Keras . 26 3.3.3 如何在 GPU 上运行 Keras? . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.4 如何在多 GPU 上运行 Keras 模型? . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.1 数据并行 . . . . . . . . . 目录中,你会找到更多高级模型:基于记忆网络的问答系统、基于 栈式 LSTM 的文本生成等等。 KERAS: 基于 PYTHON 的深度学习库 3 1.4 安装指引 在安装 Keras 之前,请安装以下后端引擎之一:TensorFlow,Theano,或者 CNTK。我们 推荐 TensorFlow 后端。 • TensorFlow 安装指引。 • Theano 安装指引。 • CNTK 安装指引。0 码力 | 257 页 | 1.19 MB | 1 年前3
深度学习在电子商务中的应用程进兴,苏宁美国研究院技术总监,斯坦福大学 博士,清华大学本科。 曾在甲骨文,雅虎,微软, 沃尔玛实验室等多家公司从事搜索,广告,大数 据分析,机器学习,人工智能应用等方面的研发 工作。在此期间,发表了10多篇相关领域的研究 论文,并有10多项相关领域的专利。 业余爱好: 骑行 个人简介 电子邮箱: jim.cheng@ususing.com 5 议程 • 深度学习与商品搜索 矢量化搜索技术简介 目前商品搜索中的一些问题 7 人工智能/深度学习在搜索中的应用:网页/电商搜索 • 基于深度学习的(Query, Document)分数是Google搜索引擎中第3重要的排序信 号 • 亚马逊(Amazon/A9)电子商务搜索引擎中, 深度学习还在实验阶段, 尚未进入生产线。 8 • 搜索数值矢量化 传统搜索基于文字匹配, 商品包含搜索词或者不包含搜索词 利用深度学习技术, 将搜索词和商品全部数值矢量化, 用户点击日志 用户购物车 日志 用户购买日志 Word2vec模型 计算距离最近 的矢量 产品类别过滤 产品频率过滤 矢量转换回商 品 14 原型评测结果 矢量化搜索引擎与易购传统引擎搜索效果对比 (2016-07-25测试结果) 15 • 该技术不仅召回与搜索词完全匹配的结果,还可召回与搜索词文本不匹配、但含义近似的结果。 效果示例 如:经测评,当搜索词为“松下筒灯”,0 码力 | 27 页 | 1.98 MB | 1 年前3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱覆盖腾讯PCG全部业务的推荐场景,⽀持腾讯 IEG,CSIG,QQ⾳乐,阅⽂等业务的部分推 荐场景 � 袁镱 博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 多线程⽆锁:基于模型版本的读写分离 � 多机:多副本并⾏读取 � CPU:固定64位key,基于L1缓存的查 询优化 � 业务需求 � 模型⼤⼩超TB � 单个请求需要15W个key � 耗时要求10ms以下 � 资讯业务请求量⼤ (>10000请求/秒) � 模型有多个版本 � 原有在线分布式存储系统的 问题 � 主备模式资源严重浪费 � 数据读写需要加锁 � ⽀持多模型和模型多版本 困难 CPU型服务 Feature 2.2 Hotkey缓存优化 <10台 内存型服务 并发查询优化 数⼗台 ⽹络型服务 TB级模型实时上线 � 问题:TB模型实时多地传输和加载成本⾼ � ⽅案:⾼低频分别上线 � 更灵活的⽤法:模型多切⽚,按需上线 � Dssm � wdl ... 分布式Serving集群 副本1 副本2 Group 1 Group N 副本1 副本2 推理节点0 码力 | 22 页 | 6.76 MB | 1 年前3
动手学深度学习 v2.07 更多延迟 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 525 12.5 多GPU训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 528 12 训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 533 12.6 多GPU的简洁实现 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 536 12.6.1 12.7.2 环同步(Ring Synchronization) . . . . . . . . . . . . . . . . . . . . . . . . . . . . 542 12.7.3 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储0 码力 | 797 页 | 29.45 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文专 注 于 企 业 文 本 挖 掘 技 术 和 相 关 应 用 系 统 的 服 务 个人简介——达观数据CEO 陈运文 达观数据:全球领先的文本智能处理专家 l 为企业提供文本挖掘、知识图谱、搜索引擎和个性化推荐等文本智能处理技术服 务,是国内首家将自动语义分析技术应用于企业数据化运营的人工智能公司 专注于文本挖掘的国际领军人工智能企业 l 获得全球三十大最佳AI企业等荣誉,拥有国家级高新技术企业、CMMI3资质认 深度学习(CNN,RNN等) • 端到端,无需大量特征工程 • 框架通用性好,满足多领域需求 • 可以使用非监督语料训练字词向量提升效果 文本分类 CNN RNN CLSTM 序列标注 传统机器学习(CRF) • 需要大量特征工程 • 不同领域需要反复调整 深度学习(Bi-LSTM+CRF) • 多领域通用 • 输入层采用词向量,提升泛化能力 • 循环神经网络(LSTM,GRU等)能学0 码力 | 46 页 | 25.61 MB | 1 年前3
共 46 条
- 1
- 2
- 3
- 4
- 5













