请求处理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行摩尔定律：停止增长了吗？ • 晶体管的密度的确仍在指数增长，但处理器主频却开始停止增长了，甚至有所下降。 • 很长时间之前我们就可以达到 2GHz （ 2001 年 8 月），根据 2003 年的趋势，在 2005 年初我们就应该研发出 10GHz 的芯片。神话与现实： 2 * 3GHz < 6GHz • 一个由双核组成的 3GHz 的 CPU 实际上提供了 6GHz 的处理能力，是吗？ • 显然不是。甚至在两个处理器上同时运行两个线程也不见得可以获得两倍的性能。相似的，大多数多线程的应用不会比双核处理器的两倍快。他们应该比单核处理器运行的快，但是性能毕竟不是线性增长。 • 为什么无法做到呢？首先，为了保证缓存一致性以及其他握手协议需要运行时间开销。在 • 并发：单核处理器，操作系统通过时间片调度算法，轮换着执行着不同的线程，看起来就好像是同时运行一样，其实每一时刻只有一个线程在运行。目的：异步地处理多个不同的任务，避免同步造成的阻塞。 • 并行：多核处理器，每个处理器执行一个线程，真正的同时运行。目的：将一个任务分派到多个核上，从而更快完成任务。举个例子 • 并发：某互联网公司购置了一台单核处理器的服务器，他正同时处理

0 码力 | 116 页 | 15.85 MB | 1 年前
3
Rust分布式账务系统 - 胡宇

允许数据丢失性能超低延迟 + 高吞吐超高吞吐交易日志审计，监管调试使用分布式账务系统 Fintech 领域中的软件与互联网软件的不同需求分析支付处理： ● 转账 ● 冻资 / 解资 ● 账户限额 ● 批处理事务正确性：无双花或少付审计监管：交易日志不可篡改，交易历史可回溯条件事务：根据一定的条件决定事务执行与否高可用：在部分节点失效的情况下，依旧可以提供正确的 API 到底层 API 的翻译 ○ 产生转账计划 ● Marker 事务层 ○ 使用业务 id 进行路由 ○ 执行转账计划 ○ 分发账户变动请求 ● Auticuro 账户层 ○ 使用账户 id 进行分区 ○ 执行账户变动请求 ○ 更新账户余额分布式账务系统性能展示 8 vCPUs * 5 节点 SSD 磁盘当 TPS = 10K 时，延迟 P99 < 20ms 分布式账务系统高吞吐，超低延迟账户层： Auticuro 分布式账务系统账户层： Auticuro ● 1. 接受转账请求，转换成 events ○ Tokio + Tonic 分布式账务系统 1 2 3 4 ● 1. 接受转账请求，转换成 events ● 2. 将 events 送入 Raft 共识，等待 events 被多数节点保存 ○ 共识：基于 raft-rs

0 码力 | 27 页 | 12.60 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

}; • CacheEntry cache[512]; • 当 CPU 读取一个地址时： • 缓存会查找和该地址匹配的条目。如果找到，则给 CPU 返回缓存中的数据。如果找不到，则向主内存发送请求，等读取到该地址的数据，就创建一个新条目。 • 在 x86 架构中每个条目的存储 64 字节的数据，这个条目又称之为缓存行（ cacheline ）。 • 当访问 0x0048~0x0050 当读和写创建的新条目过多，缓存快要塞不下时，他会把最不常用的那个条目移除，这个现象称为失效（ invalid ）。如果那个条目是被标记为脏的，则说明是当时打算写入的数据，那就需要向主内存发送写入请求，等他写入成功，才能安全移除这个条目。 • 如有多级缓存，则一级缓存失效后会丢给二级缓存。连续访问与跨步访问 • 如果访问数组时，按一定的间距跨步访问，则效率如何？ • 从 1 到 16 ，于是会提前给缓存发送一个读取指令，让他读取 a[2] 、 a[3] 。缓存在后台默默读取数据的同时， CPU 自己在继续处理 a[0] 的数据。这样等 a[0], a[1] 处理完以后，缓存也刚好读取完 a[2] 了，从而 CPU 不用等待，就可以直接开始处理 a[2] ，避免等待数据的时候 CPU 空转浪费时间。 • 这种策略称之为预取（ prefetch ），由硬件自动识别你程序的访存规律

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

C++17 的个人认为， C++11 中很多特性，其实可以看做是为了支持多线程而顺带引入的……如 chrono 、移动、 lambda 、 RAII…… 第 0 章：时间 C 语言如何处理时间： time.h • long t0 = time(NULL); // 获取从 1970 年 1 月 1 日到当前时经过的秒数 • sleep(3); 每个线程共享同样的内存空间，开销比较小。 • 每个进程拥有独立的内存空间，因此开销更大。 • 对于高性能并行计算，更好的是多线程。为什么需要多线程：无阻塞多任务 • 我们的程序常常需要同时处理多个任务。 • 例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其的实现背后是基于 pthread 的。 • 解决： CMakeLists.txt 里链接 Threads::Threads 即可：有了多线程：异步处理请求 • 有了多线程的话，文件下载和用户交互分别在两个线程，同时独立运行。从而下载过程中也可以响应用户请求，提升了体验。 • 可是发现一个问题：我输入完 pyb 以后，他的确及时地和我交互了。但是用户交互所在的主线程退出后，文件下载所在的子

0 码力 | 79 页 | 14.11 MB | 1 年前
3
应用 waPC (rust) 做软件测试工具

Webassembly Procedures Call waPC 协议标准化了本机代码调用 WebAssembly 和 WebAssembly 调用本机代码的通信 (messaging) 和错误处理 (error handling) 。什么是 waPC? WASM 外部函数接口 FFI Input type Return type Platform 底层 I32 I32 wasm • Operation 是我们要在 wasm 里注册命名 • 以数据的长度，设置 wasm 的 linear memory 的指针 • Guest 可执行任务 • Guest 也可返回请求 host Invoke(ctx,operation,payload) WAPC 流程 • Uses Length of response and error to return result request_marshalli ng); reg.insert(“response_marshalling”.into(),response_marsh alling); } 自动化 HTTP 请求例子自动化测试以循环方式执行 • Request 用了 http1x • foo_index! 里取 _i • 在 response_marshalling 里 foo_assert_eq

0 码力 | 30 页 | 2.50 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

银行证券保险企业、公安部、上海市公安局、武汉市公安局等 100+ 公安机构，国家电网、国信通产业集团等电力能源行业提供数据智能产品解决方案及长期服务。海致专注为政府、金融、能源等客户提供大数据处理、分析、挖掘服务，在互联网技术基础上，打造专业、易用的企业级大数据实战应用产品及解决方案。北京中关村总部武汉运维中心深圳研发中心上海应用中心专注于数据智能技术赋能中国数字经济发展月 25 日，海致科技与清华大学计算机科学与技术系共同建设高性能图计算院士专家工作站。高性能图计算是高性能计算、图计算两项技术融合产生的新的技术方向，满足人们对更大规模、更复杂数据的实时处理和存储需求，是计算机领域竞争新战略制高点。产学结合、协同创新，打造全球领先的国产自研图数据库 AtlasGraph ，培育世界级的图计算软硬件生态体系，保持对全球科技竞争的战略均衡。海致高性能图计算院士专家工作站 starts •2023-11 – DIS ballot ends •2024-04 – International Standard 类 SQL 语言，简单易用，面向分析师友好查询引擎：计算请求执行流程 Cypher AST Unresolved Logical Plan Logical Plan Optimized Logical Plan Physical Plan Program

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

典型的例子包括，图形学某知名应用中，可以简化函数具有多个返回值的处理。 • 和 std::tuple 相比，最大的好处是每个属性都有名字，不容易搞错。举个例子： • auto [hit, pos, ...] = intersect(...) • 每增加一个属性都要全部改一次代码。 • 更加 fancy 的写法：编译器默认生成的构造函数：初始化列表（妙用，处理函数的复杂类型参数） • 还有，函数的参数，如果是很复杂的类型为什么很多面向对象语言，比如 Java ，都没有构造函数全家桶这些概念？ • 因为他们的业务需求大多是：打开数据库，增删改查学生数据，打开一个窗口，写入一个文件，正则匹配是不是电邮地址，应答 HTTP 请求等。 • 这些业务往往都是在和资源打交道，从而基本都是刚刚说的要删除拷贝函数的那一类，解决这种需求，几乎总是在用 shared_ptr 的模式，于是 Java 和 Python

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

rsi, rdi, rsp, rbp, r8, r9, r10, r11, ..., r15 • 其中 r8 到 r15 是 64 位 x86 新增的寄存器，给了汇编程序员更大的空间，降低了编译器处理寄存器翻车（ register spill ）的压力。 • 因此 64 位比 32 位机器相比，除了内存突破 4GB 限制外，也有一定性能优势。 8 位， 16 位， 32 位， 64 位版本 size_t 在 64 位系统上相当于 uint64_t size_t 在 32 位系统上相当于 uint32_t 从而不需要用 movslq 从 32 位符号扩展到 64 位，更高效。而且也能处理数组大小超过 INT_MAX 的情况，推荐始终用 size_t 表示数组大小和索引。浮点作为参数和返回： xmm 系列寄存器 xmm0 = xmm0 + xmm1 参数分别通过 xmm0 为什么需要 SIMD ？单个指令处理四个数据 • 这种单个指令处理多个数据的技术称为 SIMD （ single-instruction multiple-data ）。 • 他可以大大增加计算密集型程序的吞吐量。 • 因为 SIMD 把 4 个 float 打包到一个 xmm 寄存器里同时运算，很像数学中矢量的逐元素加法。因此 SIMD 又被称为矢量，而原始的一次只能处理 1 个 float 的方式，则称为

0 码力 | 108 页 | 9.47 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

上的编译器（通常是系统自带的编译器比如 gcc 和 msvc ）生成 CPU 部分的指令码。然后送到真正的 GPU 编译器生成 GPU 指令码。最后再链接成同一个文件，看起来好像只编译了一次一样，实际上你的代码会被预处理很多次。 • 他在 GPU 编译模式下会定义 __CUDA_ARCH__ 这个宏，利用 #ifdef 判断该宏是否定义，就可以判断当前是否处于 GPU 模式，从而实现一个函数针对 GPU Hello, world! 打印了三遍！ • 原来，三重尖括号里的第二个参数决定着启动 kernel 时所用 GPU 的线程数量。 • GPU 是为并行而生的，可以开启很大数量的线程，用于处理大吞吐量的数据。获取线程编号 • 可以通过 threadIdx.x 获取当前线程的编号，我们打印一下试试看。 • 这是 CUDA 中的特殊变量之一，只有在核函数里才可以访问。 • 可以看到线程编号从），而每个板块具有的线程数量（ blockDim ）则是固定的 128 。 • 因此，我们可以用 n / 128 作为 gridDim ，这样总的线程数刚好的 n ，实现了每个线程负责处理一个元素。边角料难题 • 但这样的话， n 只能是的 128 的整数倍，如果不是就会漏掉最后几个元素。 • 主要是 C 语言的整数除法 n / nthreads ，他是向下取整的，比如

0 码力 | 142 页 | 13.52 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

可以自动检测源文件和头文件之间的依赖关系，导出到 Makefile 里。 • make 的语法非常简单，不像 shell 或 python 可以做很多判断等。 • CMake 具有相对高级的语法，内置的函数能够处理 configure ， install 等常见需求。 • 不同的编译器有不同的 flag 规则，为 g++ 准备的参数可能对 MSVC 不适用。 • CMake 可以自动检测当前的编译器，需要添加哪些。然后用一个小程序，自动在编译前把引号内的文件名 hello.h 的内容插入到记号所在的位置，这样不就只用编辑 hello.h 一次了嘛 ~ • 后来，这个编译前替换的步骤逐渐变成编译器的了一部分，称为预处理阶段， #define 定义的宏也是这个阶段处理的。 • 此外，在实现的文件 hello.cpp 中导入声明的文件 hello.h 是个好习惯，可以保证当 hello.cpp 被修改时，比如改成 hello(int) 声明了该类的头文件，像这样递归地 #include 即可：预处理后变成：头文件进阶 - 递归地使用头文件（续） • 但是这样造成一个问题，就是如果多个头文件都引用了 MyClass.h ，那么 MyClass 会被重复定义两遍： • 解决方案：在头文件前面加上一行： #pragma once • 这样当预处理器第二次读到同一个文件时，就会自动跳过 • 通常头文件都不想被重复导入，因此建议在每个头文件前加上这句话

0 码力 | 32 页 | 11.40 MB | 1 年前
3

共 25 条前往

页

C++高性性能高性能并行编程优化课件 06 胡宇 rust 分布布式分布式账务系统 07 05 潘泳权 wpac 游人 RustCC AtlasGraph 02 04 08 01

分类

语言

格式

C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

Rust分布式账务系统 - 胡宇

C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

应用 waPC (rust) 做软件测试工具

新一代分布式高性能图数据库的构建 - 沈游人

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

C++高性能并行编程与优化 - 课件 - 04 从汇编角度看编译器优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起