反馈 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入

39 资料来源：《Training language models to follow instructions with human feedback》论文 ◼ InstructGPT使用来自人类反馈的强化学习方案RLHF（reinforcement learning from human feedback），通过对大语言模型进行微调，从而能够在参数减少的情况下，实现优于GPT-3的功能 ew-shot）和继续坚持了GPT-2的无监督学习，但基于few-shot的效果，其稍逊于监督微调（fine-tuning）的方式。 ✓ 基于以上背景，OpenAI在GPT-3基础上根据人类反馈的强化学习方案RHLF，训练出奖励模型（reward model）去训练学习模型（即：用AI训练AI的思路） ✓ InstructGPT的训练步骤为：对GPT-3监督微调——训练奖励模型（reward 公众测试 ◼ ChatGPT提升了理解人类思维的准确性的原因在于利用了基于人类反馈数据的系统进行模型训练（注：根据官网介绍，GhatGPT也是基于InstructGPT构建，因而可以从InstructGPT来理解ChatGPT利用人类意图来增强模型效果）步骤1：搜集说明数据，训练监督策略图：基于人类反馈强化的核心训练流程如下所示：步骤2：搜集比较数据，训练一个奖励模型步骤3：搜集说明数据，使用增强学习优化模型

0 码力 | 44 页 | 2.36 MB | 1 年前
3
超大规模深度学习在美团的应用-余建平

美团应用场景简介 • 场景特点 亿级的用户，千万级的O2O商品 海量的用户行为，完整的交易闭环 LBS相关的推荐 • 模型特点 百亿级别的训练数据 千亿级别的模型特征 秒级实时的模型反馈目录 • 美团超大规模模型场景简介 • 超大规模机器学习MLX  MLX平台目标  MLX平台架构 • 模型场景应用  召回模型  排序模型超大规模模型的有效性 • VC维理论内部： Abacus、XPS， etc. • Online Learning的价值  用户的近期行为，更能表现意图和偏好  增强新item的模型感知能力 • 更快数据反馈、更少资源消耗  分钟级的数据反馈  增量训练、避免batch重训带来的资源消耗关于Online Learning MLX的模型能力 • 支持千亿级特征、千亿级样本 • 支持计算图模式，模型结构灵活多样

0 码力 | 41 页 | 5.96 MB | 1 年前
3
深度学习在电子商务中的应用

小米手机4c, 小米手机4s, 142074410 美的冰箱 270, 美的冰箱645, 美的冰箱 330, 132268985, 美的 2155, 美的冰箱, 美的冰箱 550 基于用户反馈的矢量化 13 基于用户反馈的矢量化模型用户搜索日志用户点击日志用户购物车日志用户购买日志 Word2vec模型计算距离最近的矢量产品类别过滤产品频率过滤矢量转换回商品美研方案返回64个相关结果现有方案原型系统 16 • 首先进行词语的矢量化 • 词语矢量作为各种深度学习模型的输入值 • 示例深度学习架构： dual RNN ( dual LSTM) • 利用用户反馈数据来补充训练样本正在进行的探索 17 聊天机器人(chatbot) • 聊天机器人是一种聊天代理，它通过电脑程序设计与人类通过音频或文本进行智力对话。 --维基百科 • 未来，聊天应

0 码力 | 27 页 | 1.98 MB | 1 年前
3
Qcon北京2018-《文本智能处理的深度学习技术》-陈运文

Rouge指标优化 Reward 文本摘要候选集生成更新模型反馈增强学习优化深度学习模型评分强化学习和深度学习相结合的学习方式 l 最优化词的联合概率分布：MLE（最大似然），有监督学习。在这里生成候选的摘要集。 l ROUGE指标评价：不可导，无法采用梯度下降的方式训练，考虑强化学习，鼓励reward高的模型，通过给与反馈来更新模型。最终训练得到表现最好的模型。生成式摘要

0 码力 | 46 页 | 25.61 MB | 1 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

可，不能用于任何个人或者企业的商业用途，违法盗版和销售，必究其法律责任。龙龙老师 2021 年 10 月 19 日预览版202112 配套资源 ❑ 提交错误或者修改等反馈意见，请在 Github Issues 页面提交： https://github.com/dragen1860/Deep-Learning-with-PyTorch-book/issues ❑ 的一类算法。与有监督学习、无监督学习不同，强化学习问题并没有明确的“正确的”动作监督信号，预览版202112 1.2 神经网络发展简史 3 算法需要与环境进行交互，获取环境反馈的滞后的奖励信号，因此并不能通过计算预测动作与“正确动作”之间的误差来优化网络。常见的强化学习算法有 DQN、TRPO、PPO 等。 1.1.3 神经网络与深度学习神经网络算法是一 20%用于测试。预览版202112 第 9 章过拟合 6 图 9.8 训练集-测试集划分示意图但是将数据集仅划分为训练集与测试集是不够的，由于测试集的性能不能作为模型训练的反馈，而我们需要在模型训练时能够挑选出较合适的模型超参数，判断模型是否过拟合等，因此需要将训练集再次切分为训练集?train和验证集?val，如图 9.9 所示。划分过的训练集与原来的训练集的功能一

0 码力 | 439 页 | 29.91 MB | 1 年前
3
Keras: 基于 Python 的深度学习库

是为人类而不是为机器设计的 API。它把用户体验放在首要和中心位置。 Keras 遵循减少认知困难的最佳实践：它提供一致且简单的 API，将常见用例所需的用户操作数量降至最低，并且在用户错误时提供清晰和可操作的反馈。 • 模块化。模型被理解为由独立的、完全可配置的模块构成的序列或图。这些模块可以以尽可能少的限制组装在一起。特别是神经网络层、损失函数、优化器、初始化方法、激活函数、正则化方法，它们都是可以结合起来构建新模型的模块。 • Keras 是为人类而非机器设计的 API。Keras 遵循减少认知困难的最佳实践: 它提供一致且简单的 API，它将常见用例所需的用户操作数量降至最低，并且在用户错误时提供清晰和可操作的反馈。 • 这使 Keras 易于学习和使用。作为 Keras 用户，你的工作效率更高，能够比竞争对手更快地尝试更多创意，从而帮助你赢得机器学习竞赛。 • 这种易用性并不以降低灵活性为代价：因为 return_sequences=False, return_state=False, go_backwards=False, stateful=False, unroll=False) 完全连接的 RNN，其输出将被反馈到输入。参数 • units: 正整数，输出空间的维度。 • activation: 要使用的激活函数 (详见 activations)。如果传入 None，则不使用激活函数 (即线性激活：a(x)

0 码力 | 257 页 | 1.19 MB | 1 年前
3
《TensorFlow 2项目进阶实战》3-方案设计篇：如何设计可落地的AI解决方案

�� 行业现状线下销售执行：门店拍照 + 稽核抽查 + 正负反馈稽核结果： •货架缺货 •新品未上架 •必分销未上架 •陈列审核不通过客户现状与问题分析现状缺点： •抽查比例低 •覆盖门店少 •人工费用高 •全局把握难照片：10万/天 300万/月

0 码力 | 49 页 | 12.50 MB | 1 年前
3
QCon北京2018-《深度学习在微博信息流排序的应用》-刘博

相关系数评估 • 特征组合 • GBDT+互信息——有效挖掘非线性特征及组合皮尔逊相关系数特征评估标签匹配度特征相关系数特征评估样本采集 Ø 存在问题 • 头部效应 • 实时反馈类收集与在线存在差异性 Ø 解决方案 • 正负样本比例严重失衡 • 对头部曝光进行降采样，长尾曝光上采样 • 负样本进行下采样 • 后端样本预采样模型评估 Ø 离线评估 • AUC

0 码力 | 21 页 | 2.14 MB | 1 年前
3
华为云深度学习在文本分类中的实践-李明磊

外观空间油耗 2.0T涡轮增压发动机动力强，高速120超车没压力；外观是我和老婆都比较喜欢的款；后排空间有点小；有点费油啊。 20 其他分类案例客服话题分类识别客户对话过程用用户反馈的话题类型，并进行热点话题分析等。准确率：96% 税务问题分类识别用户在税务局中咨询的问题类型，并进行热点问题分析。准确率：99% 广告检测识别文本是否是广告。如“去屑洗发

0 码力 | 23 页 | 1.80 MB | 1 年前
3
Chatbots 中对话式交互系统的分析与应用

• Q：如何表示对话状态状态追踪 (DST) 旧状态用户动作系统动作新状态策略优化 Dialogue Policy Optimization (DPO) • 系统如何做出反馈动作 • 作为序列决策过程进行优化：增强学习 Milica Gašić (2014) 语言生成 Natural Language Generation (NLG) • 把结构化的系统动作翻译成人类的语言

0 码力 | 39 页 | 2.24 MB | 1 年前
3

共 19 条前往

页

分类

语言

格式