机器学习课程-温州大学-12机器学习-关联规则,I3链接到I1。 (这里根据项集的数量排序成I2、I1、I3) Null l2:1 l1:1 l3:1 ② 再次扫描数据库并检查事务。检查第一个事务并找出其中的项集。计数 最大的项集在顶部,计数较低的下一个项集,以此类推。这意味着树的 分支是由事务项集按计数降序构造的。 35 3.FP-Growth算法 构建FP树 1.考虑到根节点为空(null)。 2. T1:I1、I2 中, {I2,I1,I3,I4:1},{I2,I3,I4:1}。因此,将I4作为后缀, 前缀路径将是{I2,I1,I3:1},{I2,I3:1}。这形成了条件 模式基。 3.将条件模式基视为事务数据库,构造FP树。这 将包含{I2:2,I3:2},不考虑I1,因为它不满足最小支 持计数。 Null l4:1 l2:5 l1:4 l3:1 l5:1 l3:3 l4:1 l5:1 I1,I2.I5 2 I2,I4 3 I2,I3 4 I1,I2,I4 5 I1,I3 6 I2,I3 7 I1,I3 8 I1,I2,I3,I5 9 I1,I2,I3 事务数据库的建立 扫描事务数据库得到频繁项目集F I1 I2 I3 I4 I5 6 7 6 2 2 定义minsup=20%,即最小支持度为2,重新排列F I2 I1 I3 I4 I5 7 6 6 2 20 码力 | 49 页 | 1.41 MB | 1 年前3
搜狗深度学习技术在广告推荐领域的应用深度学习在搜狗搜索广告的一些应用 03 基于多模型融合的CTR预估 04 若干思考 搜索广告背景知识 信息需求 用户查询 查询理解 广告召回 点击率预估 排序计价 结果展示 点击及后续行为 广告库 日志收集 展示日志 点击日志 深度学习在搜狗搜索广告的一些应用 无需分词:基于字符粒度表达的问答系统设计 L.X Meng, Y.Li, M.Y Liu, P Shu. Skipping Word: A Word2Vec、CSR、LSTM CTR预估 广告排序、特征挖掘 DNN、MxNet、TensorFlow 基于多模型融合的CTR预估 CTR预估流程 原始数据 领域特征 模型训练 查询日志 点击日志 查询特征 广告特征 匹配特征 线性模型 非线性模型 Data Feature Model 线上Server CTR预估 Rank Online 特征抽取 CTR预估涉及技术0 码力 | 22 页 | 1.60 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� • 资源组(Schedule 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� • Web的⽅式查看作业的运⾏状况和作业日志� • 在线查看Tensorboard� • HistoryServer支持查看结束作业的日志和状态信息� • 控制已有的TensorFlow作业的迁移成本(最多改三⾏ 代码)� 扩展目标:� TensorFlow on Yarn设计 Container当前状态� 训练中保存的中间模型� 查看work、ps日志� TensorFlow on Yarn设计 TensorFlow作业Tensorboard页面:� TensorFlow on Yarn设计 TensorFlow作业history页面:� Event log上传到了HDFS� 查看历史日志� TensorFlow on Yarn技术细节揭秘 实现Yarn0 码力 | 32 页 | 4.06 MB | 1 年前3
深度学习在电子商务中的应用基于词语聚类的矢量化模型 12 • 把搜索词和商品文档各自作为整体看待,直接学习训练各自的矢量值 • 通过分析用户每次访问的行为顺序, 构建有“搜索词”和“商品文档”组成的句子 • 训练集是采用苏宁易购的用户搜索日志作为来源。在经过数据清理之后,按照搜索的 时间顺序,结合商品的点击,商品放入购物车,商品的购买这些用户行为,而建立的 矢量化训练数据 小米手机4c, 小米手机4s, 142074410 美的冰箱 270 美的冰箱645, 美的冰箱 330, 132268985, 美的 2155, 美的冰箱, 美的冰箱 550 基于用户反馈的矢量化 13 基于用户反馈的矢量化模型 用户搜索日志 用户点击日志 用户购物车 日志 用户购买日志 Word2vec模型 计算距离最近 的矢量 产品类别过滤 产品频率过滤 矢量转换回商 品 14 原型评测结果 矢量化搜索引擎与易购传统引擎搜索效果对比 (2016-07-25测试结果)0 码力 | 27 页 | 1.98 MB | 1 年前3
Keras: 基于 Python 的深度学习库上的一轮迭代。请注意,与 initial_epoch 一起,epochs 被理解为「最终轮次」。模型并不是训练了 epochs 轮,而 是到第 epochs 轮停止训练。 • verbose: 0, 1 或 2。日志显示模式。0 = 安静模式, 1 = 进度条, 2 = 每轮一行。 • callbacks: 一系列的 keras.callbacks.Callback 实例。一系列可以在训练时使用的回调 函数。详见 数组。如果从本地框架张量馈送(例如 TensorFlow 数据张量)数据,y 可 以是 None(默认)。 • batch_size: 整数。每次梯度更新的样本数。如果未指定,默认为 32。 • verbose: 日志显示模式,0 或 1。 • sample_weight: 样本权重,Numpy 数组。 • steps: 整数或 None。声明评估结束之前的总步数(批次样本)。默认值 None。 模型 44 steps=None) 为输入样本生成输出预测。 输入样本逐批处理。 参数 • x: 输入数据,Numpy 数组。 • batch_size: 整数。如未指定,默认为 32。 • verbose: 日志显示模式,0 或 1。 • steps: 声明预测结束之前的总步数(批次样本)。默认值 None。 返回 预测的 Numpy 数组。 4.2.3.5 train_on_batch train_on_batch(self0 码力 | 257 页 | 1.19 MB | 1 年前3
微博在线机器学习和深度学习实践-黄波Task Metrics输出 3 在线机器学习-工作流 互动行为日志 数据处理 点击行为日志 阅读行为日志 曝光行为日志 数据过滤 样本拼接 定时轮询 Kafka Hdfs 样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待0 码力 | 36 页 | 16.69 MB | 1 年前3
阿里云上深度学习建模实践-程孟力MaxCompute Datahub 离线特征 样本构造 实时特征 Flink 训练数据 推荐日志 模型发布 在线流程 离线流程 智能推荐解决方案 > PAI-REC 推荐引擎 PAI-REC 推荐引擎 多路召回 曝光/状态过滤 粗排/精排 策略[类目打散、流量控制、…] 实时采集后端日志 PAI-REC 配置中心 AB实验 实验工具 拉取配置 监控报警 Prometheus Prometheus Grafana 读取metric 消息队列(datahub/kafka) PAI-REC平台 自动化降级 负载均衡 灰度发布 超时控制 平台支持 日志SLS 在线存储 Hologres/OTS BE Redis 读取数据 向量引擎 BE/Hologres/Faiss/Milvus 向量检索 冷启动召 回 冷启动排 序 Pipeline1 Pipeline20 码力 | 40 页 | 8.51 MB | 1 年前3
谭国富:深度学习在图像审核的应用1 Val Job 2 WK Job 2 WK Job 3 监控/启停 任务调度/资源管理 监控上报 cephfs存储集 群 本地文件系统 数据 模型/日志 client 管理数据 提取模型、 查看日志 提交/管理任务 用户 docker.oa.co m 自动拉取镜像 Redis 冷数据 热任务/监控数据/集群信息 • 任务监控与自动重启 • 分布式多机训练,不可避免遇到由于硬件/网0 码力 | 32 页 | 5.17 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博用户特征 关键词 类型属性 topic 内容标签 内容质量 内容特征 组合特征 标签匹配度 用户互动率 协同特征 实时互动率 app互动率 微博内容 关注数据 用户信息 视觉标签 打码日志 社交关系 用户特征 发博流 互动流 曝光流 模型服务 模型训练 模型优化 模型评估 模型预测 CTR预估 排序策略 权值映射 业务排序 其他策略 特征工程 特征存储 特征查询0 码力 | 21 页 | 2.14 MB | 1 年前3
机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入实现ChatGPT的数据飞轮效应(用更多数据可以训练出更好的模型, 吸引更多用户,从而产生更多用户数据用于训练,形成良性循环)。 ✓ 研究发现,每增加参数都带来了文本合成和/或下游NLP任务的改进, 有证据表明,日志丢失与许多下游任务密切相关,随着规模的增长,日 志丢失呈现平稳的改善趋势。 资料来源:《On the Opportunities and Risks of Foundation Models 》论文0 码力 | 44 页 | 2.36 MB | 1 年前3
共 11 条
- 1
- 2













