动手学深度学习 v2.0较差。现代笔记本电脑最多有4核,即使是高端服务器也很少 超过64核,因为它们的性价比不高。 相比于CPU,GPU由100 ∼ 1000个小的处理单元组成(NVIDIA、ATI、ARM和其他芯片供应商之间的细节稍有 不同),通常被分成更大的组(NVIDIA称之为warps)。虽然每个GPU核心都相对较弱,有时甚至以低于1GHz的 时钟频率运行,但庞大的核心数量使GPU比CPU快几个数量级。例如,NVIDIA最近一代的Ampere 令可以快速地异步插入后端、并行 执行。 • 异步产生了一个相当灵活的前端,但请注意:过度填充任务队列可能会导致内存消耗过多。建议对每个 小批量进行同步,以保持前端和后端大致同步。 • 芯片供应商提供了复杂的性能分析工具,以获得对深度学习效率更精确的洞察。 12.2. 异步计算 511 练习 1. 在CPU上,对本节中相同的矩阵乘法操作进行基准测试,仍然可以通过后端观察异步吗? Discussions144 unit,CPU)是任何计算机的核心。它们由许多关键组件组成:处理器核心 (processor cores)用于执行机器代码的;总线(bus)用于连接不同组件(注意,总线会因为处理器型号、 各代产品和供应商之间的特定拓扑结构有明显不同);缓存(cach)相比主内存实现更高的读取带宽和更低 的延迟内存访问。最后,因为高性能线性代数和卷积运算常见于媒体处理和机器学习中,所以几乎所有的现 代CPU都包含向量处理单元(vector0 码力 | 797 页 | 29.45 MB | 1 年前3
Keras: 基于 Python 的深度学习库Keras 可以轻松将模型转化为产品 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 . . . . . . . . . . 6 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 . . . . . . . . . . . . . . . . . . . 网页应用后端(比如 Flask app)中。 • 在 JVM,通过 SkyMind 提供的 DL4J 模型导入。 • 在 Raspberry Pi 树莓派上。 2.4 Keras 支持多个后端引擎,并且不会将你锁定到一个生态系统中 你的 Keras 模型可以基于不同的深度学习后端开发。重要的是,任何仅利用内置层构建的 Keras 模型,都可以在所有这些后端中移植:用一种后端训练模型,再将它载入另一种后端中(比0 码力 | 257 页 | 1.19 MB | 1 年前3
共 2 条
- 1













