动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 519 12.4.5 GPU和其他加速卡 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 522 12.4.6 网络和总线 . . . . . 一种结合了代码、数学和HTML的媒介 任何一种计算技术要想发挥其全部影响力,都必须得到充分的理解、充分的文档记录,并得到成熟的、维护 良好的工具的支持。关键思想应该被清楚地提炼出来,尽可能减少需要让新的从业者跟上时代的入门时间。 成熟的库应该自动化常见的任务,示例代码应该使从业者可以轻松地修改、应用和扩展常见的应用程序,以 满足他们的需求。以动态网页应用为例。尽管许多公司,如亚马逊,在20世纪90年代开发了成功的数据库驱 组 动作。深蓝公司利用大规模并行性、专用硬件和高效搜索游戏树 (Campbell et al., 2002) 击败了加里·卡 斯帕罗夫(Garry Kasparov)。围棋由于其巨大的状态空间,难度更大。AlphaGo在2015年达到了相当于 人类的棋力,使用和蒙特卡洛树抽样 (Silver et al., 2016) 相结合的深度学习。扑克中的挑战是状态空间 很大,而且没有完全观察到(我0 码力 | 797 页 | 29.45 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112项实用的技术已经进入到人们的日常生活中。现在我们的生活处处被人工智能所环绕,尽 管目前能达到的智能水平离通用人工智能(Artificial General Intelligence,简称 AGI)还有一 段距离,我们仍坚定地相信人工智能时代已经来临。 机器学习是人工智能的一个重要研究领域,而深度学习则是近几年最为火热的一类人 工智能算法。接下来我们将介绍人工智能、机器学习、深度学习的概念以及它们之间的联 系与区别。 1.1.1 神经网络算法是一类基于神经网络从数据中学习的算法,它仍然属于机器学习的范 畴。受限于计算能力和数据量,早期的神经网络层数较浅,一般在 1~4 层左右,网络表达 能力有限。随着计算能力的提升和大数据时代的到来,高度并行化的 GPU 和海量数据让大 规模神经网络的训练成为可能。 2006 年,Geoffrey Hinton 首次提出深度学习的概念。2012 年,8 层的深层神经网络 AlexNet 亿个神经元,每个神经元通过树突获取输入信号,通过轴 突传递输出信号,神经元之间相互连接构成了巨大的神经网络,从而形成了人脑的感知和 意识基础,图 2.1 是一种典型的生物神经元结构。1943 年,心理学家沃伦·麦卡洛克 (Warren McCulloch)和数理逻辑学家沃尔特·皮茨(Walter Pitts)通过对生物神经元的研究, 提出了模拟生物神经元机制的人工神经网络的数学模型 [1],这一成果被美国神经学家弗0 码力 | 439 页 | 29.91 MB | 1 年前3
《TensorFlow 2项目进阶实战》3-方案设计篇:如何设计可落地的AI解决方案——《C时代 新零售——阿里研究院新零售研究报告》 中国零售发展处于初级阶段 ——《C时代 新零售——阿里研究院新零售研究报告》 新零售是什么 ——《C时代 新零售——阿里研究院新零售研究报告》 新零售知识框架 ——《C时代 新零售——阿里研究院新零售研究报告》 数字经济基础设施 ——《C时代 新零售——阿里研究院新零售研究报告》 AI:贯穿新零售全流程 ——《C时代 新零售——阿里研究院新零售研究报告》 新零售——阿里研究院新零售研究报告》 AR/VR:虚实结合的消费体验 ——《C时代 新零售——阿里研究院新零售研究报告》 传感器和IoT:提升门店消费体验 ——《C时代 新零售——阿里研究院新零售研究报告》 用户需求:线下门店业绩如何提升? 全球实体零售发展遭遇天花板 品牌间存量竞争 ——《C时代 新零售——阿里研究院新零售研究报告》 线上销售的广告位:直通车/钻展 线下门店的广告位:黄金位置0 码力 | 49 页 | 12.50 MB | 1 年前3
李东亮:云端图像技术的深度学习模型与应用中国最大的互联网安全公司 360智能硬件 智能摄像头超400万,儿童手表超 350万,行车记录仪超300万 SACC2017 奇虎360 安全 ——360的基因 SACC2017 【万物互联的新时代】 线上安全 线下安全 泛 安 全 安全 | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | 老幼安全—穿戴 家人安全—家居 出行安全—车辆 …… 电脑安全 手机安全 企业安全 …… 新时代的奇虎360 SACC2017 万物互联的新时代 交通 智能家居 机器人 AR/VR/MR 智能手机 穿戴设备 SACC2017 万物互联的核心技术 视觉感知 语音感知 语义理解 人工智能 大数据分析0 码力 | 26 页 | 3.69 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒首次超过人眼 2014 2015 98.52% 97.35% 97.45% 人眼 DeepID时代 99.55% 99.15% 30万张人脸训练 DeepID3 DeepID2 8位密码时代 20亿张人脸, 2亿个体训练 1/1亿 错误概率 97% 通过率 6位密码时代 1/100万 错误概率 95% 通过率 6000万张人脸训练 2016 2017 What’s0 码力 | 23 页 | 9.26 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数� on Yarn技术细节揭秘 Yarn支持CPU调度 vs GPU调度:� CPU GPU 每个NodeManager配置可用CPU核心 数量 每个NodeManager配置可用GPU卡数 量 ResourceManager统计计数并按数量 分配 ResourceManager统计计数并按数量 分配 作业必须占用CPU资源 作业可以不需要GPU资源 系统自动分配物理CPU核心 getGpuCores();� � public abstract void setGpuCores(int gCores);� � 最终在ResourceManager端需要完成:� 1、对NodeManager GPU卡数量的统计管理� 2、调度器统计管理每个Pool的GPU设备数的分配情况� � 具体可以参考下面Patch的实现思路:� https://issues.apache.org/jira/browse/YARN-5517�0 码力 | 32 页 | 4.06 MB | 1 年前3
阿里云上深度学习建模实践-程孟力容量大 计算量小 训练推理: 高qps, 低rt 支持超大模型 性价比 流程长、环节多: 推荐场景: 召回 + 粗排 + 精排 + 多样性/冷启动 实人认证: 卡证识别 + 人脸检测 + 活体检测 + 人脸 识别 … 模型构建: 问题: ✗ 方案复杂周期长/见效慢 ✗ 细节多难免踩坑 解决方案: 标准化 标准化模型库 标准化解决方案 Model Serving CV / NLP解决方案: EAS Web App Mobile App On-prem System 3 1 2 证件扫描 活体检测 人脸比对 • 卡证OCR • 人脸检测 • 活体检测 •人脸比对 Mobile SDK API + customer 示例: e-Know Your Customer eKYC eKYC Server 训练优化: 数据并行 模型并行 推理优化: Blade 推荐模型优化: 千亿特征 3. 工程优化 RingAllReduce + 层级级联 EasyVision 多机多卡性能对比 工程优化: 数据并行 M6模型 Transformer模型: RapidFormer 人脸分类模型: 超大softmax 3D卷积模型 M6模型 RapidFormer性能0 码力 | 40 页 | 8.51 MB | 1 年前3
AI大模型千问 qwen 中文文档"Tell me something about large language models."}, ] ) print("Chat response:", chat_response) 1.10.4 多卡分布式部署 要提高模型的处理吞吐量,分布式服务可以通过利用更多的 GPU 设备来帮助您。特别是对于像 Qwen1. 5-72B-Chat 这样的大模型,单个 GPU 无法支撑其在线服务。在这里,我们通过演示如何仅通过传入参数 Fastchat 的训练脚本修改而来的。这个 脚本用于使用 Hugging Face Trainer 对 Qwen 模型进行微调。你可以在以下链接查看这个脚本:这里 。这个脚 本具有以下特点: • 支持单卡和多卡分布式训练 • 支持全参数微调、LoRA 以及 Q-LoRA 。 下面,我们介绍脚本的更多细节。 安装 开始之前,确保你已经安装了以下代码库: pip install peft deepspeed 好对齐!请继续关注我们接下来关于 RLHF 的教程! 1.12.2 LLaMA-Factory 我们将介绍如何使用 LLaMA-Factory 微调模型。本脚本包含如下特点: • 支持单卡和多卡分布式训练 • 支持全参数微调、LoRA、Q-LoRA 和 DoRA 。 下文将介绍更多关于脚本的用法。 34 Chapter 1. 文档 Qwen 安装 开始之前,确保你已经安装了以下代码库:0 码力 | 56 页 | 835.78 KB | 1 年前3
构建基于富媒体大数据的弹性深度学习计算平台构建基于富媒体大数据的弹性深度学 习计算平台 SPEAKER / 土土@七牛 AtLab Mobile —> 富媒体时代 数据存储 数据加速 数据处理 直播 点播 Connect 每天超过10亿图像上传 超过万亿小时的音视频存储 What are they? 内容审核团队 运营分析团队 AI? Content 分类 检测 分割 跟踪 描述 搜索 分析 …0 码力 | 21 页 | 1.71 MB | 1 年前3
亚马逊AWSAI Services Overview的匹配来识别图像中的人 • 社交应用、消息类应用 中加入朋友标签 • 协助找到始终人口 • 确定可以访问敏感区域 的员工 • 在历史和媒体的档案中 找到“名人” 应用案例:公共安全领域的智能应用 人工智能的时代已经到来 Amazon AI 服务 • 充分利用了 Amazon 内部在 AI / Ml领域的经验 • 全托管的API 服务,嵌入的AI服务提供了最大的 可访问性和简单性 • 完整的深度学习堆栈,包含了专业的平台、引擎0 码力 | 56 页 | 4.97 MB | 1 年前3
共 17 条
- 1
- 2













