手写数字问题
0 码力 | 10 页 | 569.56 KB | 1 年前3【PyTorch深度学习-龙龙老师】-测试版202112
解、喜欢并进入到人工智能行业中来,因此作者试图从分析人工智能中的简单问题入手,一 步步地提出设想、分析方案以及实现方案,重温当年科研工作者的发现之路,让读者身临其 境式的感受算法设计思想,从而掌握分析问题、解决问题的能力。这种方式也是对读者的基 础要求较少的,读者在学习本书的过程中会自然而然地了解算法的相关背景知识,体会到知 识是为了解决问题而生的,避免陷入为了学习而学习的窘境。 尽管作者试图将读者 总的来说,本书适合于大学三年级左右的理工科本科生和研究生,以及其他对人工智能算法 感兴趣的朋友。 本书共 15 章,大体上可分为 4 个部份:第 1~3 章为第 1 部分,主要介绍人工智能的初 步认知,并引出相关问题;第 4~5 章为第 2 部分,主要介绍 PyTorch 相关基础,为后续算法 实现铺垫;第 6~9 章为第 3 部分,主要介绍神经网络的核心理论和共性知识,让读者理解深 度学习的本质;第 10~15 -PyTorch-book ❑ 姊妹书《TensorFlow 深度学习—深入理解人工智能算法设计》: https://item.jd.com/12954866.html ❑ 联系邮箱(一般问题建议 Github issues 交流):liangqu.long AT gmail.com ❑ 配套视频课程(收费,提供答疑等全服务,比较适合初学者): 深度学习与 TensorFlow 入门实战0 码力 | 439 页 | 29.91 MB | 1 年前3动手学深度学习 v2.0
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105 3.4.1 分类问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106 3.4.2 网络架构 9.3 分布偏移纠正 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 174 4.9.4 学习问题的分类法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 177 4.9.5 机器学习中的公平、责任和透明度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 11.11.1 一个简单的问题 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 493 11.11.2 学习率调度器 . .0 码力 | 797 页 | 29.45 MB | 1 年前3机器学习课程-温州大学-12深度学习-自然语言处理和词嵌入
一个巨大的10,000维度的softmax,因为计算成本很高, 而是把它转变为10,000个二分类问题,每个都很容易计算 ,每次迭代我们要做的只是训练它们其中的5个,一般而言 就是? + 1个,其中?个负样本和1个正样本。这也是为什么 这个算法计算成本更低,因为只需更新? + 1个逻辑单元, ? + 1个二分类问题,相对而言每次迭代的成本比更新 10,000维的softmax分类器成本低。 ? ? 2017年,在Ashish Vaswani et.al 的论文《Attention Is All You Need》 中,考虑到主导序列转导模型基于编码器-解码器配置中的复杂递归或卷积 神经网络,性能最好的模型被证明还是通过注意力机制(attention mechanism)连接编码器和解码器,因而《Attention Is All You Need》 中提出了一种新的简单架构——Tra 模型(Multi- task) GPT-2要 实现的目 标 • GPT-2 调整优化的目的是为了解决零 次 学 习 问 题 ( zero-shot ) ( 注 : zero-shot问题,就是针对AI在面对 不认识的事物时,也能进行推理) • 多任务模型的特点:跟传统ML需要专 门的标注数据集不同(从而训练出专 业AI),多任务模型不采用专门AI手 段,而是在海量数据喂养训练的基础0 码力 | 44 页 | 2.36 MB | 1 年前3从推荐模型的基础特点看大规模推荐类深度学习系统的设计 袁镱
博⼠,专家⼯程师 � 研究⽅向:机器学习系统,云计算,⼤数据系统 � 负责腾讯平台与内容事业群(PCG)技术中台核 ⼼引擎:⽆量系统。⽀持⼤规模稀疏模型训练, 上线与推理 提纲 �推荐场景深度学习系统的基本问题与特点 �推荐类模型的深度学习系统设计 � 系统维度 � 算法维度 �总结 基于深度学习模型的推荐流程,场景与⽬标 Serving系统 HDFS 数据 通道 训练系统 召回 业务服务 ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2(数据的时空 特点) � Feature3(机器学习 的特点) ⼤规模推荐模型深度学习系统基本解决维度 分布式 系统 ⼤规模 模型 优化 算法 1. ⾼性能 2. 效果⽆ 损的优化 � Feature 1(基本特点) � Feature 2.1:短时间内只有部分item和user 被命中,只有部分参数被⽤到 参数按需 获取/更新 Storage 异步训练流⽔线和多级存储:提升性能,降低内存成本 � 问题: � Learner线程中参数拉取和参数更新对性能影响⼤ � 内存成为主要资源瓶颈。由于需要等待全部参数 就绪,Parameter Server难以利⽤速度慢的存储 介质 样本读取 样本解析 参数拉0 码力 | 22 页 | 6.76 MB | 1 年前3机器学习课程-温州大学-特征工程
中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 文献解读 定义 目的 作用 是把原始数据转变为模型的训练数据的过程 获取更好的训练数据特征,使得机器学习模型逼 近这个上限 ➢ 使模型的性能得到提升 ➢ 在机器学习中占有非常重要的作用 构成 ➢ 特征构建 ➢ 特征提取 ➢ 特征选择 特征工程相关概念 1. 相关概念 5 通过这张图可以看出,各种不 同算法在输入的数据量达到一 3. 特征提取 21 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 2. HOG特征 方向梯度直方图(HOG)特征是 2005 年针对行人检测问题提出的直方图特 征,它通过计算和统计图像局部区域的梯度方向直方图来实现特征描述。 归一化处理 计算图像梯度 统计梯度方向 特征向量 归一化 生成特征向量 步骤 图像特征提取 3. 特征提取 • 对当前学习任务没用 的属性或者特征 原因:维数灾难问题;去除无关特征可 以降低学习任务的难度,简化模型,降 低计算复杂度 目的:确保不丢失重要的特征 4. 特征选择 26 许永洪,吴林颖.中国各地区人口特征和房价波动的动态关系[J].统计研究,2019,36(01) 模型性能 • 保留尽可能多的特征,模型 的性能会提升 • 但同时模型就变复杂,计算 复杂度也同样提升0 码力 | 38 页 | 1.28 MB | 1 年前3微博在线机器学习和深度学习实践-黄波
样本输出 3 在线机器学习-实时样本生成 • 多流拼接 • 曝光,互动,点击,真实阅读等多种数据流接入并多流拼接 • 如何解决日志延时问题 • 延迟等待机制,先到先走 • 定时轮寻,最长N分钟等待 • Kafka 堆积监控,实时报警 • 如何解决内存问题 • 调整内存参数 • 关闭多余的监控点 • 如何异常处理 • 自动化监控与修复系统 • Checkpoint 节点异常修复 Adagrad等优化算法 模型评估 1.独立模型评估 2.配置化 3.UI展示 3 在线机器学习-实时模型训练 • 模型选择 • LR : 基础模型,对特征工程依赖较强 • FM:大规模稀疏数据下的特征组合问题 • DeepFM • 优化算法选择 • FTRL:调节学习率,突出低频特征,非batch优化 • Adagrad : 调节学习率,突出低频特征,实现简单 • SGD: 参数少,效率高,固定学习率 模型的异构集群迁移,支持集 群扩缩容 • 性能优化 • 通信优化:数据请求(PULL&PUSH)聚合,同模型多矩阵并发,锁粒度优化,性能提升5-10倍 • 缓存优化:使用堆外内存与LRU过期机制,解决GC引起的性能损耗,性能提升3-5倍 • 分区优化:支持多种分区策略(RANGE/HASH/MOD),解决数据倾斜导致的流量热点瓶颈问题,性能提升2-5倍 • 存储优化:自定义存储方式(B0 码力 | 36 页 | 16.69 MB | 1 年前3Keras: 基于 Python 的深度学习库
. . . . . . . . . . . . . . . . 25 3.3 Keras FAQ: 常见问题解答 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26 3.3.1 Keras FAQ: 常见问题解答 . . . . . . . . . . . . . . . . . . . . . . . . . epochs=5, batch_size=32) 或者,你可以手动地将批次的数据提供给模型: model.train_on_batch(x_batch, y_batch) 只需一行代码就能评估模型性能: loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128) 或者对新的数据生成预测: classes = model 5 使用 TensorFlow 以外的后端 默认情况下,Keras 将使用 TensorFlow 作为其张量操作库。请跟随这些指引来配置其他 Keras 后端。 1.6 技术支持 你可以提出问题并参与开发讨论: • Keras Google group。 • Keras Slack channel。使用 这个链接 向该频道请求邀请函。 你也可以在 Github issues 中张贴漏0 码力 | 257 页 | 1.19 MB | 1 年前3机器学习课程-温州大学-07机器学习-决策树
决策树原理 ⚫ 决策树:从训练数据中学习得出一个树状 结构的模型。 ⚫ 决策树属于判别模型。 ⚫ 决策树是一种树状结构,通过做出一系列 决策(选择)来对数据进行划分,这类似 于针对一系列问题进行选择。 ⚫ 决策树的决策过程就是从根节点开始,测 试待分类项中对应的特征属性,并按照其 值选择输出分支,直到叶子节点,将叶子 节点的存放的类别作为决策结果。 根节点 (root node) 凹陷 硬滑 否 训练集 验证集 在已经生成的决策树上进行剪枝,从而 得到简化版的剪枝决策树。 后剪枝决策树通常比预剪枝决策树保留 了更多的分支。一般情况下,后剪枝的 欠拟合风险更小,泛化性能往往优于预 剪枝决策树。 24 C4.5的剪枝 后剪枝 基于表生成未剪枝的决策树 平坦 纹理 色泽 好瓜 坏瓜 根蒂 色泽 脐部 坏瓜 坏瓜 坏瓜 坏瓜 好瓜 好瓜 好瓜 替这课子树是否有益。如果剪枝后与剪枝前相比其错 误率是保持或者下降,则这棵子树就可以被替换掉。 C4.5 通过训练数据集上的错误分类数量来估算未知样 本上的错误率。 后剪枝决策树的欠拟合风险很小,泛化性能往往优于 预剪枝决策树。 25 C4.5的剪枝 后剪枝 后剪枝的决策树 剪枝方法 在已经生成的决策树上进行剪枝,从而得到简化版的 剪枝决策树。 C4.5 采用的悲观剪枝方法,用递归的方式从低往上针0 码力 | 39 页 | 1.84 MB | 1 年前3阿里云上深度学习建模实践-程孟力
流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化 标准化模型库 标准化解决方案 1.方案复杂 图像 搜索 推荐 语音 视频理解 NLP 广告 CNN RNN Swin Retrieval Image Generation Video Caption EasyVision: 图像视频算法库 Bert TextInput Optim izer 性能优越: 分布式存储 分布式查询 功能完备: GSL/负采样 主流图算法 异构图 (user/item/attribute) 动态图 标准化: Standard Libraries 多任务模型: share-bottom, mmoe, ple? 特征选择/生成: Age, sex, comment, click… 解决方案: 超参搜索 效果提升 模型理解 问题: 黑盒 1. 参数太多 / 参数敏感 2. 候选空间大 3. 场景数据相关 模型创新 2.模型效果优化 模型效果优化: 超参数搜索NNI ExpId f1 .dim f2.dim auc0 码力 | 40 页 | 8.51 MB | 1 年前3
共 67 条
- 1
- 2
- 3
- 4
- 5
- 6
- 7