提示词生成 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

-j4 • sudo make install • cd .. • 需要先创建 build 目录 • 切换到 build 目录 • 在 build 目录运行 cmake < 源码目录 > 生成 Makefile • 执行本地的构建系统 make 真正开始构建（ 4 进程并行） • 让本地的构建系统执行安装步骤 • 回到源码目录现代 CMake 提供了更方便的 -B 和 --build 上调用 devenv.exe ） • 结论：从现在开始，如果在命令行操作 cmake ，请使用更方便的 -B 和 --build 命令。 // 在源码目录用 -B 直接创建 build 目录并生成 build/Makefile // 自动调用本地的构建系统在 build 里构建，即： make -C build -j4 // 调用本地的构建系统执行选项：指定配置变量（又称缓存变量） • 可见 CMake 项目的构建分为两步： • 第一步是 cmake -B build ，称为配置阶段（ configure ），这时只检测环境并生成构建规则 • 会在 build 目录下生成本地构建系统能识别的项目文件（ Makefile 或是 .sln ） • 第二步是 cmake --build build ，称为构建阶段（ build ），这时才实际调用编译器来编译代码

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 al, ax, eax, rax r15b, r15w, r15d, r15 AT&T 汇编语言 GCC 编译器所生成的汇编语言就属于这种返回值：通过 eax 传出 movl $42, %eax 相当于： eax = 42; 前 6 个参数：分别通过 edi ， esi ， edx ， ecx ， r8d ， rsi 并不是指针整数加常数乘整数：都可以被优化成 leal 因为这种线性变换在地址索引中很常见，所以被 x86 做成了单独一个指令。这里尽管不是地址，但同样可以利用 lea 指令简化生成的代码大小。 eax = rdi + rsi * 8 指针访问对象：线性访问地址 rsi = (int64_t)esi eax = *(int *)(rdi + rsi * 4) 为什么乘以：一个 float 加法。 • addsd ：一个 double 加法。 • addps ：四个 float 加法。 • addpd ：两个 double 加法。省流助手：如果你看到编译器生成的汇编里，有大量 ss 结尾的指令则说明矢量化失败；如果看到大多数都是 ps 结尾则说明矢量化成功。 xmm0 xmm1 xmm0 addss %xmm1, %xmm0 addps %xmm1

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 03 现代 C++ 进阶：模板元编程

func(int N); • 一个是模板参数，一个是函数参数，有什么区别？有很大区别！ • template 传入的 N ，是一个编译期常量，每个不同的 N ，编译器都会单独生成一份代码，从而可以对他做单独的优化。 • 而 func(int N) ，则变成运行期常量，编译器无法自动优化，只能运行时根据被调用参数 N 的不同。 • 比如 show_times<0>() 编译器就可以自动优化为一个空函数。因此模板元编程对高性能编程很重要。 • 通常来说，模板的内部实现需要被暴露出来，除非使用特殊的手段，否则，定义和实现都必须放在头文件里。 • 但也正因如此，如果过度使用模板，会导致生成的二进制文件大小剧增，编译变得很慢等。 boost 编译慢的原因找到了……因为他们用了大量的模板。模板的应用：编译期优化案例 • 在右边这个案例中，我们声明了一个 sumto 函数，作用是求出从是运行时判断，这样即使是 debug 为 false 也会浪费 CPU 时间。模板的应用：编译期优化案例（续） • 因此可以把 debug 改成模板参数，这样就是编译期常量。编译器会生成两份函数 sumto 和 sumto 。前者保留了调试用的打印语句，后者则完全为性能优化而可以去掉打印语句。 • 后者其实在编译器看来就是 • if (false)

0 码力 | 82 页 | 12.15 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

如何评价 • 公式：加速比 = 串行用时 ÷ 并行用时 • 理想加速比应该是核心的数量。 • for 部分加速比为 5.98 倍。 • reduce 部分加速比为 10.36 倍。 • 提示：老师的电脑是 6 个物理核心， 12 个逻辑核心。 • 似乎这里 reduce 的加速比是逻辑核心数量，而 for 的加速比是物理核心的数量？ • 剧透：因为本例中 reduce 是内存密集型， for (auto _: bm) • 里面即可。他会自动决定要重复多少次，保证结果是准确的，同时不浪费太多时间。运行结果刚才的 BENCHMARK_MAIN 自动生成了一个 main 函数，从而生成一个可执行文件供你运行。运行后会得到测试的结果打印在终端上。命令行参数他还接受一些命令行参数来控制测试的输出格式为 csv 等等，你可以调用 --help 查看更多用法。一、算出每个元素需要往 vector 推送数据的数量（本例中只有 0 和 1 两种可能）二、对刚刚算出的数据进行并行扫描（ scan ），得出每个 i 要写入的索引。三、再次对每个元素并行 for 循环，根据刚刚生成写入的索引，依次写入数据。加速比： 4.50 倍（考虑到这里 ind 只有 0 和 1 ，应该大有优化空间）第 8 章：分治与排序斐波那契数列第 n 项斐波那契数列第 n 项：并行 tbb::task_group

0 码力 | 116 页 | 15.85 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

因此我想要用 _mm_prefetch 指令手动提示 CPU ，让他预取出下一个缓存行，不要被内部 t++ 的循环迷惑住了，告诉他我们还是要顺序读取下去的。 • 结果这一提示反而还变慢了。怎么回事？ X 方向插桩：手动预取下一缓存行，配合循环分块 • 原来 _mm_prefetch 指令本身的执行也要花费不少时间。我们给预取提示给太频繁了，反而浪费了时间。 • 实际上只需要每隔的二进制数，交错打包成一个长度 2*n 的二进制数。而莫顿编码的逆运算，就是莫顿解码： • mdec(m1m2m3m4)=(m2m4, m1m3) • 莫顿码的几何意义在于，以 (x,y)=mdec(t) 为参数方程，可以生成一条分形（自相似）的 Z 字型曲线。该曲线的有一个性质，上面两个 (x,y) 坐标相近的点，他们的 t 也相近（大概率）。 • 意义：可以用一维的 t 遍历二维的网格，然后用 mdec(t)

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 15 C++ 系列课：字符与字符串

过大，超出了字符串的长度，则抛出 out_of_range 异常。 • 例如 “ helloworld”.replace(400, 2, “pful”) 会得到异常（和 at 同款） • 启发性提示：因为 -1 转换为 size_t 后是个很大的数（因为补码的规则，他实际上变成 0xffffffffffffffff ），所以可以给 len 指定 - 1 （或者 string::npos ）来迫使语言程序的思路，利用张心欣蒙眼的特性，利用他的粑粑，来覆盖系统软件重要的数据结构（比如一个正在吃三文鱼刺身的西装），从而改变西装的行为。弱引用失效案例 • 被引用的 string 本体修改的时候，原先生成的 string_view 会失效（因为 ptr 和 len 改变了）。 • 因此建议创建 string_view 以后，不要改写原字符串。举例：常见容器及其相应的弱引用强引用弱引用

0 码力 | 162 页 | 40.20 MB | 1 年前
3
夏歌-使用Rust构建LLM应用

使用 Rust 构建 ChatGPT Telegram 机器人使用 Rust 构建基于 ChatGPT 的 PR Review 机器人当有新的 PR 或在 PR comment 收到关键词，就按照每次 commit 的记录对 PR 进行 review ，并且以 PR comment 的形式发回到 GitHub 这个机器人可以： "0.1.0" 使用 Rust 构建 PR review 使用 Rust 构建 PR review 机器 1. 状态为 Open 的 PR 2. 状态为 Open 的 PR 有新的 commit 3. 包含了关键词为 trigger phrase 的 issue comment ，并且排除 Hello 开头的 review 筛选事件 "0.1.0" 使用 Rust 构建 PR review 机器人

0 码力 | 36 页 | 38.31 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

X86/ARM - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性 - 多副本管理保证数据服务高可用 - 在线备份提供容灾保障高速易用可靠 Why Rust ？ Performance 图数据库关键特性 - 基于 RUST 语言保证性能优势 - 分布式架构性能可线性扩展 - 针对大规模图的优化的存算引擎 - 配合 Atlas 图平台，实现无代码图分析 - Query 性能分析模块，启发式提示优化 - 内置多种分析函数，面向分析师友好 -MVOCC 保证事务一致性 - 多副本管理保证数据服务高可用 - 在线备份提供容灾保障高速易用可靠 Photo / image /

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

https://zhuanlan.zhihu.com/p/350136757 未来： C++20 允许函数参数为自动推断（ auto ）未来： C++20 引入协程（ coroutine ）和生成器（ generator ）未来： C++20 标准库加入 format 支持跑远了！ • 鉴于 C++20 还没有普遍落地（例如 CMake 不支持 C++20 modules ）因此我们的课程 static_cast(ptr) 的错误。 • 虽然作者也经常会忍不住在 zeno 中用编译器默认生成的构造函数：无参数（小心 POD 陷阱！） • 除了我们自定义的构造函数外，编译器还会自动生成一些构造函数。 • 当一个类没有定义任何构造函数，且所有成员都有无参构造函数时，编译器会自动生成一个无参构造函数 Pig() ，他会调用每个成员的无参构造函数。 • 但是请注意，这些类型不会被初始化为编译器默认生成的构造函数：无参数（ POD 陷阱解决方案） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，会在编译器自动生成的构造函数里执行。编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，不仅会在编译器自动生成的构造函数里执行，也会用户自定

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

什么是编译器 • 编译器，是一个根据源代码生成机器码的程序。 • > g++ main.cpp -o a.out • 该命令会调用编译器程序 g++ ，让他读取 main.cpp 中的字符串（称为源码），并根据 C+ + 标准生成相应的机器指令码，输出到 a.out 这个文件中，（称为可执行文件）。 • > ./a.out • 之后执行该命令，操作系统会读取刚刚生成的可执行文件，从而执行其中编译成机器码，其中使用 -c 选项指定生成临时的对象文件 main.o ，之后再根据一系列对象文件进行链接，得到最终的 a.out ： • > g++ hello.o main.o -o a.out 为什么需要构建系统（ Makefile ） • 文件越来越多时，一个个调用 g++ 编译链接会变得很麻烦。 • 于是，发明了 make 这个程序，你只需写出不同文件之间的依赖关系，和生成各文件的规则。 • hello.o ，而不需要把 main.o 也重新编译一遍。 2. 能够自动并行地发起对 hello.cpp 和 main.cpp 的编译，加快编译速度（ make -j ）。 3. 用通配符批量生成构建规则，避免针对每个 .cpp 和 .o 重复写 g++ 命令（ %.o: %.cpp ）。 • 但坏处也很明显： 1. make 在 Unix 类系统上是通用的，但在 Windows 则不然。

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 21 条前往

页

C++高性性能高性能并行编程优化课件 11 04 03 06 07 15 夏歌使用 Rust 构建 LLM 应用游人 RustCC AtlasGraph 02 01

分类

语言

格式