ARM CPU - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

章：内存带宽 cpu-bound 与 memory-bound • 通常来说，并行只能加速计算的部分，不能加速内存读写的部分。 • 因此，对 fill 这种没有任何计算量，纯粹只有访存的循环体，并行没有加速效果。称为内存瓶颈（ memory-bound ）。 • 而 sine 这种内部需要泰勒展开来计算，每次迭代计算量很大的循环体，并行才有较好的加速效果。称为计算瓶颈（ cpu- bound 计算太简单，数据量又大，并行只带来了多线程调度的额外开销。 • 小彭老师经验公式： 1 次浮点读写 ≈ 8 次浮点加法 • 如果矢量化成功（ SSE ）： 1 次浮点读写 ≈ 32 次浮点加法 • 如果 CPU 有 4 核且矢量化成功： 1 次浮点读写 ≈ 128 次浮点加法常见操作所花费的时间 • 图中加法 (add) 和乘法 (mul) 都指的整数。 • 区别是浮点的乘法和加法基本是一样速度。 • funcA 用了 2 核就饱和。 • funcB 用了 4 核才饱和。 • funcC 用了 6 核才饱和。 • 结论：要想利用全部 CPU 核心，避免 mem-bound ，需要 func 里有足够的计算量。 • 当核心数量越多， CPU 计算能力越强，相对之下来不及从内存读写数据，从而越容易 mem-bound 。 1 2 4 6 8 10 0 50 100 150

0 码力 | 147 页 | 18.88 MB | 1 年前
3
ClickHouse: настоящее и будущее

инфраструктуре заказчика • На личном ноутбуке ClickHouse доступен под разные платформы: • x86_64, aarch64 (ARM), PowerPC 64, RISC-V • Linux, FreeBSD, mac OS ClickHouse — настоящий open-source 10 • Исходники cloud-native ClickHouse. Кстати, а что это значит? Сложность разделения ресурсов 21 • Разделение CPU и IO между запросами • Приоритеты запросов • Memory overcommit Недостаточные возможности по интеграции

0 码力 | 32 页 | 2.62 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

集群管理用户权限 GNN 应用层 Atlas 图平台 Atlas Studio Atlas Client 基础设施 Docker/K8S/VM X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化对于常用算法，跳过固定的编程模型，分别设计最佳的计算方案 • 例如我们自研的 node2vec 采样算法比现有技术快了 1 个数量级海致图计算平台特点 AtlasML 极致的性能 • 支持 CPU/GPU 等异构设备训练 • 特殊设计的高性能图算子库丰富的算法库 • 内置多种 20+ 个 GNN 算法 • 支持同构图 / 异构图 / 属性图客户的信任 • 上线某银行反欺诈场景

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

）的大小也不一样 • 刚刚说把 2 个字节（ byte ）拼成一个字（ word ），实际上是 16 位计算机的做法。 • 16 位计算机得名就是因为他的字由 16 个位组成，早期的 8086 系列 CPU 就是 16 位的。 • 在 32 位计算机上会把 4 个字节拼成一个字，字由 32 个位组成。 • 在 64 位计算机上会把 8 个字节拼成一个字，字由 64 个位组成。 • 如今的计算机大多是 sinf sin std::sin 指针的本质究竟是什么？理解内存地址的概念地址字节内存就像一条长长的街道，街边有一间间小房子，每个房子里都住着一个字节。而内存地址就是房子的门牌号， CPU 就是通过门牌号，来读取或修改指定房子里的字节。而内存的容量实际上就是街道的长度，比如 1MB 就表示总共有 1048576 个房子。变量在内存中的存储方式（大端字节序）地址字节刚刚说过一个种方式。其中小端字节序（ little-endian ）就是先从低地址开始存字节的方式。比如假设 x=1 的话，那么小端字节序的存储方式是：大小端之争我们主流的硬件架构如 x86 ， ARM 都采用的小端字节序。非主流的硬件架构如 PowerPC ， MIPS 才用大端字节序。贴近底层的语言，比如 C/C++/Fortran 会采用当前硬件架构的字节序，比如在 x86 上就会变成小端字节序。

0 码力 | 128 页 | 2.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

khronos 直呼内行）。 • 以 GCC 为例，他规定 char 在 x86 架构是有符号的 (char = signed char) ，而在 arm 架构上则认为是无符号的 (char = unsigned char) ，因为他认为“ arm 的指令集处理无符号 8 位整数更高效”，所以擅自把 char 魔改成无符号的…… • 顺便一提， C++ 标准保证 char ， signed char char ， unsigned char 是三个完全不同的类型， std::is_same_v 分别判断他们总会得到 false ，无论 x86 还是 arm 。 • 但是奇葩的 C 语言却规定 short ， int ， long ， long long 必须是有符号的 (int = signed int) ，反而却没有规定他们的位宽（没错， int 可以是 32 位，也可以是 16

0 码力 | 162 页 | 40.20 MB | 1 年前
3
THE FIRST EXPLORATION OF PROJECT SPARROW

Hyper-Converged Infrastructure & Edge Computing" will be divided into two series: "ARM + xPython + Rust + Lua + GraalVM + …" and "RISC-V + xPython + + Zig + Lua +

0 码力 | 68 页 | 13.14 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

• 这是因为 GPU 和 CPU 之间的通信，为了高效，是异步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后，并不会立即在 GPU 上执行完毕，再返回。实际上只是把 kernel 这个任务推送到 GPU 的执行队列上，然后立即返回，并不会等待执行完毕。 • 因此可以调用 cudaDeviceSynchronize() ，让 CPU 陷入等待，等 GPU 完成队列的所有任务后再返回。从而完成队列的所有任务后再返回。从而能够在 main 退出前等到 kernel 在 GPU 上执行完。定义在 GPU 上的设备函数 • __global__ 用于定义核函数，他在 GPU 上执行，从 CPU 端通过三重尖括号语法调用，可以有参数，不可以有返回值。 • 而 __device__ 则用于定义设备函数，他在 GPU 上执行，但是从 GPU 上调用的，而且不需要三重尖括号，和普通函数用起来一符号，和性能优化意义上的内联无关。 • 优化意义上的内联指把函数体直接放到调用者那里去。 • 因此 CUDA 编译器提供了一个“私货”关键字： __inline__ 来声明一个函数为内联。不论是 CPU 函数还是 GPU 都可以使用，只要你用的 CUDA 编译器。 GCC 编译器相应的私货则是 __attribute__((“inline”)) 。 • 注意声明为 __inline__ 不一定就保证内联了，如果函数太大编

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

高效？既然无分支更高效，我要怎样优化才能让我的程序变成无分支的呢？那就来看本期性能优化专题课吧！分支预测成败对性能的影响排序为什么对有分支的版本影响那么大为什么需要流水线 • 为了高效， CPU 的内部其实是一个流水线 (pipeline) 。流水线的目的是能把原本串行的一系列指令并行化。为了理解为什么需要流水线，我们先反过来，假设没有流水线，会有什么坏处。 • 例如，右边你今天早上的任务清单。 + 15 + 30 + 20 = 85 分钟嘛！可以，不过这是在你每次只做一件事的情况下，例如你烧开水时就站在旁边干瞪眼，什么也不做，其实完全可以在烧开水的同时洗脸刷牙呀！原始的 CPU 也是这样， ALU 在运算的时候指令解码单元就在旁边干瞪眼，要等 ALU 跑完写回寄存器来指令解码单元才开始继续工作，很低效。任务时间占用资源洗脸 5 分钟眼睛，嘴巴，手眼睛吃饭 30 分钟嘴巴，手拉粑粑 20 分钟屁股洗脸刷牙烧开水吃饭看比站拉粑粑 5 5 10 20 条件跳转指令 • 让不占用相同资源的任务同时进行，这也是 CPU 流水线的初衷。但理想是美好的，现实是骨感的，对于程序来说，指令不只是一个个简单的任务，有时候我们需要做判断，来决定要执行的具体任务，这就是分支，在汇编语言中体现为条件跳转指令。 •

0 码力 | 47 页 | 8.45 MB | 1 年前
3
Rust 异步并发框架在移动端的应用 - 陈明煜

async-std 更轻量化的调度框架，功能被拆分到其他多个库中， IO 密集场景性能不如 Tokio smol Rayon 并非异步运行时。它通过同步多线程模型提供了并行迭代器功能，适用于处理 CPU 密集型计算任务 rayon 现有框架无法完美适配移动端（一） Core Thread Thread Worker Worker task task Local queue Local Mobile 现有框架无法完美适配移动端（二）移动端诉求：易用性 • IO 密集性任务与 CPU 密集型任务融合异步并发框架如 tokio 大多用于处理大量异步 IO 场景，而 CPU 密集型任务一般使用 rayon 。当前单框架提供的接口无法使用户在一个任务中同时处理 IO 任务以及 CPU 任务。 Incompatibility of the third party Runtime 语等功能。但额外提供：  任务优先级调度  异步并行迭代器  结构化并发 Ylong Runtime 对外接口 APP/SA 调度器提交任务 Async function CPU Task CPU Task IO Task IO Task Executor 高中低线程池 Reactor epoll fd1 fd2 …. 结构化并发优先级 deadline

0 码力 | 25 页 | 1.64 MB | 1 年前
3
Bringing Existing Code to CUDA Using constexpr and std::pmr

people about to embark on using CUDA to speed up existing software. Introduction 3 |void add_cpu(int n, float* x, float* y) { for (int i = 0; i < n; i++) y[i] = x[i] + y[i]; } TEST_CASE("cppcon-0" float[N]; for (int i = 0; i < N; i++) { x[i] = 1.0f; y[i] = 2.0f; } add_cpu(N, x, y); delete[] x; delete[] y; } An Even Easier Introduction to CUDA 4 |TEST_CASE("cppcon-1" today, the memories of the CPU and GPU are physically distinct and separated by the PCI-Express bus.” -- https://developer.nvidia.com/blog/unified-memory-in-cuda- 6/ CPU vs GPU Memory System Memory

0 码力 | 51 页 | 3.68 MB | 6 月前
3

共 25 条前往

页

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

ClickHouse: настоящее и будущее

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 12 从计算机组成原理看 C 语言指针

C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

THE FIRST EXPLORATION OF PROJECT SPARROW

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 性能优化之无分支编程 Branchless Programming

Rust 异步并发框架在移动端的应用 - 陈明煜

Bringing Existing Code to CUDA Using constexpr and std::pmr