机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入39 资料来源:《Training language models to follow instructions with human feedback》论文 ◼ InstructGPT使用来自人类反馈的强化学习方案RLHF(reinforcement learning from human feedback), 通过对大语言模型进行微调,从而能够在参数减少的情况下,实现优于GPT-3的 功能 ew-shot)和继续坚持了GPT-2的无监督学 习,但基于few-shot的效果,其稍逊于监督微调(fine-tuning)的方式。 ✓ 基于以上背景,OpenAI在GPT-3基础上根据人类反馈的强化学习方案RHLF,训练出奖励模型(reward model)去训练学习模型(即: 用AI训练AI的思路) ✓ InstructGPT的训练步骤为:对GPT-3监督微调——训练奖励模型(reward 公众测试 ◼ ChatGPT提升了理解人类思维的准确性的原因在于利用了基于人类反馈数据的系统进行模型训练 (注:根据官网介绍,GhatGPT也是基于InstructGPT构建,因而可以从InstructGPT来理解ChatGPT利用人类意图来增强模型效果) 步骤1:搜集说明数据,训练监督策略 图:基于人类反馈强化的核心训练流程如下所示: 步骤2:搜集比较数据,训练一个奖励模型 步骤3:搜集说明数据,使用增强学习优化模型0 码力 | 44 页 | 2.36 MB | 1 年前3
超大规模深度学习在美团的应用-余建平美团应用场景简介 • 场景特点 亿级的用户,千万级的O2O商品 海量的用户行为,完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈 目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX MLX平台目标 MLX平台架构 • 模型场景应用 召回模型 排序模型 超大规模模型的有效性 • VC维理论 内部: Abacus、XPS, etc. • Online Learning的价值 用户的近期行为,更能表现意图和偏好 增强新item的模型感知能力 • 更快数据反馈、更少资源消耗 分钟级的数据反馈 增量训练、避免batch重训带来的资源消耗 关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式,模型结构灵活多样0 码力 | 41 页 | 5.96 MB | 1 年前3
深度学习在电子商务中的应用小米手机4c, 小米手机4s, 142074410 美的冰箱 270, 美的冰箱645, 美的冰箱 330, 132268985, 美的 2155, 美的冰箱, 美的冰箱 550 基于用户反馈的矢量化 13 基于用户反馈的矢量化模型 用户搜索日志 用户点击日志 用户购物车 日志 用户购买日志 Word2vec模型 计算距离最近 的矢量 产品类别过滤 产品频率过滤 矢量转换回商 品 美研方案返回64个相关结果 现有方案 原型系统 16 • 首先进行词语的矢量化 • 词语矢量作为各种深度学习模型的输入值 • 示例深度学习架构: dual RNN ( dual LSTM) • 利用用户反馈数据来补充训练样本 正在进行的探索 17 聊天机器人(chatbot) • 聊天机器人是一种聊天代理,它通过电脑程序设计与人类通过音频或文本进行 智力对话。 --维基百科 • 未来,聊天应0 码力 | 27 页 | 1.98 MB | 1 年前3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文Rouge指标优化 Reward 文本摘要候选集 生成 更新模型 反馈 增强学习优化 深度学习模型 评分 强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布:MLE(最大似然),有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价:不可导,无法采用梯度下降的方式训练,考虑强化学习,鼓励reward高的模型,通过 给与反馈来更新模型。最终训练得到表现最好的模型。 生成式摘要0 码力 | 46 页 | 25.61 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112可,不能用于任何个人或者企 业的商业用途,违法盗版和销售,必究其法律责任。 龙龙老师 2021 年 10 月 19 日 预览版202112 配 套 资 源 ❑ 提交错误或者修改等反馈意见,请在 Github Issues 页面提交: https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 的一类算法。 与有监督学习、无监督学习不同,强化学习问题并没有明确的“正确的”动作监督信号, 预览版202112 1.2 神经网络发展简史 3 算法需要与环境进行交互,获取环境反馈的滞后的奖励信号,因此并不能通过计算预测动 作与“正确动作”之间的误差来优化网络。常见的强化学习算法有 DQN、TRPO、PPO 等。 1.1.3 神经网络与深度学习 神经网络算法是一 20%用于测试。 预览版202112 第 9 章 过拟合 6 图 9.8 训练集-测试集划分示意图 但是将数据集仅划分为训练集与测试集是不够的,由于测试集的性能不能作为模型训 练的反馈,而我们需要在模型训练时能够挑选出较合适的模型超参数,判断模型是否过拟 合等,因此需要将训练集再次切分为训练集?train和验证集?val,如图 9.9 所示。划分过的 训练集与原来的训练集的功能一0 码力 | 439 页 | 29.91 MB | 1 年前3
Keras: 基于 Python 的深度学习库是为人类而不是为机器设计的 API。它把用户体验放在首要和中心位置。 Keras 遵循减少认知困难的最佳实践:它提供一致且简单的 API,将常见用例所需的用户 操作数量降至最低,并且在用户错误时提供清晰和可操作的反馈。 • 模块化。模型被理解为由独立的、完全可配置的模块构成的序列或图。这些模块可以以尽 可能少的限制组装在一起。特别是神经网络层、损失函数、优化器、初始化方法、激活函 数、正则化方法,它们都是可以结合起来构建新模型的模块。 • Keras 是为人类而非机器设计的 API。Keras 遵循减少认知困难的最佳实践: 它提供一致且 简单的 API,它将常见用例所需的用户操作数量降至最低,并且在用户错误时提供清晰和 可操作的反馈。 • 这使 Keras 易于学习和使用。作为 Keras 用户,你的工作效率更高,能够比竞争对手更快 地尝试更多创意,从而帮助你赢得机器学习竞赛。 • 这种易用性并不以降低灵活性为代价:因为 return_sequences=False, return_state=False, go_backwards=False, stateful=False, unroll=False) 完全连接的 RNN,其输出将被反馈到输入。 参数 • units: 正整数,输出空间的维度。 • activation: 要使用的激活函数 (详见 activations)。如果传入 None,则不使用激活函数 (即线 性激活:a(x)0 码力 | 257 页 | 1.19 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案�������������� ������������� ���������� �������������� ������������ ��������� 行业现状 线下销售执行:门店拍照 + 稽核抽查 + 正负反馈 稽核结果: •货架缺货 •新品未上架 •必分销未上架 •陈列审核不通过 客户现状与问题分析 现状缺点: •抽查比例低 •覆盖门店少 •人工费用高 •全局把握难 照片:10万/天 300万/月0 码力 | 49 页 | 12.50 MB | 1 年前3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘 非线性特征及组合 皮尔逊相关系数特征评估 标签匹配度特征相关系数特征评估 样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样,长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样 模型评估 Ø 离线评估 • AUC0 码力 | 21 页 | 2.14 MB | 1 年前3
华为云深度学习在文本分类中的实践-李明磊外观 空间 油耗 2.0T涡轮增压发动机动力强,高速120超车没压力;外观是我和老婆都比较喜欢的 款;后排空间有点小;有点费油啊。 20 其他分类案例 客服话题 分类 识别客户对话过程用 用户反馈的话题类型, 并进行热点话题分析 等。 准确率:96% 税务问题 分类 识别用户在税务局 中咨询的问题类型, 并进行热点问题分 析。 准确率:99% 广告检测 识别文本是否是广 告。如“去屑洗发0 码力 | 23 页 | 1.80 MB | 1 年前3
Chatbots 中对话式交互系统的分析与应用• Q:如何表示对话状态 状态追踪 (DST) 旧状态 用户动作 系统动作 新状态 策略优化 Dialogue Policy Optimization (DPO) • 系统如何做出反馈动作 • 作为序列决策过程进行优化:增强学习 Milica Gašić (2014) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言0 码力 | 39 页 | 2.24 MB | 1 年前3
共 19 条
- 1
- 2













