激活函数与GPU加速激活函数与GPU加速 主讲人:龙良曲 Leaky ReLU simply SELU softplus GPU accelerated 下一课时 测试 Thank You.0 码力 | 11 页 | 452.22 KB | 1 年前3
动手学深度学习 v2.0208 5.5.2 加载和保存模型参数 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 209 5.6 GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 . . . . . . . . . . . . . . . . . 212 5.6.2 张量与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 213 5.6.3 神经网络与GPU . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.2 并行计算与通信 . .0 码力 | 797 页 | 29.45 MB | 1 年前3
keras tutorialsupports multiple platforms and backends. It is user friendly framework which runs on both CPU and GPU. Highly scalability of computation. Benefits Keras is highly powerful and dynamic framework c330e59be8cf2d47c0b11d3cde8/ numpy-3.1.1-cp36-cp36m- macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64. macosx_10_10_intel.macosx_10_10_x86_64.whl (14.4MB) |████████████████████████████████| c330e59be8cf2d47c0b11d3cde8/ pandas-3.1.1-cp36-cp36m- macosx_10_6_intel.macosx_10_9_intel.macosx_10_9_x86_64. macosx_10_10_intel.macosx_10_10_x86_64.whl (14.4MB) |████████████████████████████████|0 码力 | 98 页 | 1.57 MB | 1 年前3
《TensorFlow 快速入门与实战》2-TensorFlow初接触(Sierra) or later (no GPU support) • Raspbian 9.0 or later �� pip �� TensorFlow tensorflow —Current release for CPU-only (recommended for beginners) tensorflow-gpu —Current release with GPU support (Ubuntu (Ubuntu and Windows) tf-nightly —Nightly build for CPU-only (unstable) tf-nightly-gpu —Nightly build with GPU support (unstable, Ubuntu and Windows) “Hello TensorFlow” Try it “Hello TensorFlow” “Hello TensorFlow” instructions that this TensorFlow binary was not compiled to use: AVX2 FMA Hello TensorFlow • Intel • Haswell processor, Q2 2013 • Haswell E processor, Q3 2014 • Broadwell processor, Q4 2014 • Broadwell0 码力 | 20 页 | 15.87 MB | 1 年前3
QCon北京2018-《未来都市--智慧城市与基于深度学习的机器视觉》-陈宇恒2017.6 2016.3 2015.11 2014.6 2013.3 2011年中 2017.3 2016.3 2014.11 2013.12 2012.12 2016.8 Intel 153亿美元收购无人驾驶 技术公司 Mobileye DeepMind AlphaGo 围棋AI击 败李世石 Google 6.6亿美元收购深度学 习公司 DeepMind Facebook 升永无止境 • 深度学习模型需要在准确率和速度上做均衡 - 使用更加精巧的模型和Operator设计 - 使用模型压缩算法,在基本保障准确率的情况下大幅提升速度 - 利用最新的硬件特性,如GPU TensorCore/int8 *示意图来自互联网 Kubernetes在异构系统调度中的挑战 • Kubernetes版本发布快,新特性更新频繁,对异构调度的支持不断加强;但配套设施落后(e GitlabCI) • 容器系统调用栈深,需要仔细验证操作系统,内核及异构设备驱动的兼容性 • Kubernetes对NUMA、异构计算、存储设备的调度能力待加强 1.6 nvidia/gpu custom scheduler 1.8 local-volume 1.10 CPU manager Device plugin 1.9 volume-awared scheduling0 码力 | 23 页 | 9.26 MB | 1 年前3
《TensorFlow 快速入门与实战》1-TensorFlow初印象• ���� • ���� • ���� • Youtube • ... 2015� Google TensorFlow ���������(��) • Airbnb • Google • Intel • Uber • �� • �� • ... TensorFlow ����� DistBelief - Google ��������������� Jeff Dean, Large Scale TensorFlow ����� TensorFlow ���� From TensorFlow Dev Summit 2018 TensorFlow ������ Initial Release GPU & more TensorBoard 1.0 Release XLA, New APIs High-Level APIs tf.keras tf.data TF Lite Eager 2.00 码力 | 34 页 | 35.16 MB | 1 年前3
《Efficient Deep Learning Book》[EDL] Chapter 2 - Compression Techniquesnotebooks. You can run the notebooks in Google’s Colab environment which provides free access to CPU, GPU, and TPU resources. You can also run this locally on your machine using the Jupyter framework or with primary driver for the performance improvement was the availability of fixed-point SIMD instructions in Intel's SSE4 instruction set which can parallelize Multiply-Accumulate (MAC) operations. 7 Vanhoucke, Vincent0 码力 | 33 页 | 1.96 MB | 1 年前3
【PyTorch深度学习-龙龙老师】-测试版202112神经网络算法是一类基于神经网络从数据中学习的算法,它仍然属于机器学习的范 畴。受限于计算能力和数据量,早期的神经网络层数较浅,一般在 1~4 层左右,网络表达 能力有限。随着计算能力的提升和大数据时代的到来,高度并行化的 GPU 和海量数据让大 规模神经网络的训练成为可能。 2006 年,Geoffrey Hinton 首次提出深度学习的概念。2012 年,8 层的深层神经网络 AlexNet 发布,并在图片识别竞赛 Krizhevsky 提出了 8 层的深层神经网络 AlexNet,它采用了 ReLU 激活函数,并使用 Dropout 技术来防止过拟合,同时抛弃了逐层预训练的方式,直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩,比第二 名在 Top-5 错误率上降低了惊人的 10.9%。 自 AlexNet 模型提出后,各种各样的算法模型相继被发表,其中有 GTX580 GPU 训练的 AlexNet 发布后,深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络 这样对数据量和计算能力有严苛的要求,通常在 CPU 上串行训练即可得到满意结果。但是 深度学习非常依赖并行加速计算设备,目前的大部分神经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从 零开始训练了0 码力 | 439 页 | 29.91 MB | 1 年前3
PyTorch Release NotesDeep Learning SDK accelerates widely-used deep learning frameworks such as PyTorch. PyTorch is a GPU-accelerated tensor computational framework with a Python front end. Functionality can be easily extended standard defined neural network layers, deep learning optimizers, data loading utilities, and multi-gpu, and multi-node support. Functions are executed immediately instead of enqueued in a static graph, see Preparing to use NVIDIA Containers Getting Started Guide. ‣ For non-DGX users, see NVIDIA ® GPU Cloud ™ (NGC) container registry installation documentation based on your platform. ‣ Ensure that0 码力 | 365 页 | 2.94 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据没有GPUs集群资源管理和调度(内存、CPU、GPU、 端⼝),集群资源负载不均� • 训练数据⼿动分发,训练模型⼿动保存� • 进程遗留问题,需要⼿动杀死� • 缺乏作业统⼀管理,不便对作业运⾏状态跟踪� • 日志查看不⽅便� � 总结:� TensorFlow使用现状及痛点 • 集群资源的管理(目前支持CPU、内存,需要扩展GPU 资源管理)� • 作业的统⼀管理、状态跟踪� 同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� 8192M \ #每个worker需要的内存� --worker-cores 1 \ #每个worker需要的CPU核数� --worker-gpus 2 \ #每个worker需要的GPU卡数� --ps-num 2 \ #ps数量� --ps-memory 1024M \ #每个ps需要的内存� --ps-cores 1 \ #每个ps需要的CPU核数�0 码力 | 32 页 | 4.06 MB | 1 年前3
共 38 条
- 1
- 2
- 3
- 4













