用户管理 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 02 现代 C++ 入门：RAII 内存管理

分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）从一个案例看 C++ 编译器默认生成的构造函数：无参数（ POD 陷阱解决方案，续） • 不过我们可以手动指定初始化 weight 为 0 。 • 通过 {} 语法指定的初始化值，不仅会在编译器自动生成的构造函数里执行，也会用户自定义构造函数里执行！ m_weight 已默认初始化为 0 ！编译器默认生成的构造函数：无参数（类成员初始化很方便） • 类成员的 {} 中还可以有多个参数，甚至能用 = 。 • 除了不能用

0 码力 | 96 页 | 16.28 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 16 现代 CMake 模块化项目管理指南

现代 CMake 模块化项目管理指南彭于斌（ @archibate ）课件 & 源码： https://github.com/parallel101/course 往期录播： https://space.bilibili.com/263032155 找不到头文件怎么办呀 CMake Cookbook 小彭老师建议 : ~~-·~·~-·~ -~·-·~·- 第一章：文件 / 的开发团队）提供，在这个库安装时（ Qt 的安装程序或 apt install 等）会自动放到 /usr/lib/cmake/XXX/XXXConfig.cmake 这个路径（其中 XXX 是包名），供 CMake 用户找到并了解该包的具体信息。 • /usr/lib/cmake 这个位置是 CMake 和第三方库作者约定俗成的，由第三方库的安装程序负责把包配置文件放到这里。如果第三方库的作者比较懒，没提供 CMake 1/lib/cmake/Qt5” 设置。举例， Windows 系统， Qt5 • 例如我把 Qt5 安装到了 D:/Qt5.12.1 。 • 首先找到他里面的 Qt5Config.cmake 文件所在位置（可以用文件管理器的“搜索”功能）。 • 假如你找到该文件的位置是 D:/Qt5.12.1/msvc2017/lib/cmake/Qt5/Qt5Config.cmake ，那么请你设置变量 Qt5_DIR 为

0 码力 | 56 页 | 6.87 MB | 1 年前
3
新一代分布式高性能图数据库的构建 - 沈游人

以终为始，以行为知，这一项目从图计算所面临的挑战出发，解决了大规模图数据所产生的建模能力不足、结构知识难用、巨量数据难算等技术挑战，实现了大规模复杂异质图数据的表示学习模型、语义推荐和风险管理关键技术，构建了完整的兼具理论指导与应用检验的大规模图数据智能分析系统与平台，满足了大数据时代从复杂异质图数据中进行知识发现的重要需求。最终获得国内外授权发明专利 43 项， CCF -A 类论文 Processing 架构，大规模集群分布式存储及并行计算， Shared Nothing 模式支持存储计算分离高性能基于 Rust 开发的分布式存储引擎及图计算引擎，精细的内存管理设计，内置索引系统，支持毫秒级的并发查询响应速度易用 AQL(Atlas Graph Query Language) ，类 SQL 的图查询语言，内置上百种分析函数，面向分析师友好，拥抱标准，副本管理 CRAQ 图原生存储索引 LSM-Tree 容灾保障（ BR ）元数据层事务管理 MVOCC 计算层 Cypher AST 优化器图计算内存加速引擎服务接口 HTTP/RPC Spark 连接器 Python UDF 执行器索引管理一致性存储 RAFT 分片管理元数据集群管理用户权限 GNN

0 码力 | 38 页 | 24.68 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 11 现代 CMake 进阶指南

这个构建系统的构建规则。 Ninja 是一个高性能，跨平台的构建系统， Linux 、 Windows 、 MacOS 上都可以用。 • Ninja 可以从包管理器里安装，没有包管理器的 Windows 可以用 Python 的包管理器安装： • pip install ninja （有趣的事实： CMake 也可以通过 pip install cmake 安装……） • 事实上， MSBuild -DNDEBUG` • 此外，注意定义了 NDEBUG 宏会使 assert 被去除掉。小技巧：设定一个变量的默认值如何让 CMAKE_BUILD_TYPE 在用户没有指定的时候为 Release ，指定的时候保持用户指定的值不变呢。就是说 CMake 默认情况下 CMAKE_BUILD_TYPE 是一个空字符串。因此这里通过 if (NOT CMAKE_BUILD_TYPE) 判断是否为空，如果空 CSDN 学到的用法）。 • 请使用 CMake 帮你封装好的 CMAKE_CXX_STANDARD （从业人员告诉你的正确用法）。 • 为什么百度不对：你 GCC 用户手动指定了 -std=c++17 ，让 MSVC 的用户怎么办？ • 此外 CMake 已经自动根据 CMAKE_CXX_STANDARD 的默认值 11 添加 -std=c++11 选项了，你再添加个 -std=c++17

0 码力 | 166 页 | 6.54 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 05 C++11 开始的多线程编程

分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）温馨提示： 1. 会用到第二讲（例如：后台在执行一个很耗时的任务，比如下载一个文件，同时还要和用户交互。 • 这在 GUI 应用程序中很常见，比如浏览器在后台下载文件的同时，用户仍然可以用鼠标操作其 UI 界面。没有多线程：程序未响应 • 没有多线程的话，就必须等文件下载完了才能继续和用户交互。 • 下载完成前，整个界面都会处于“未响应”状态，用户想做别的事情就做不了。现代 C++ 中的多线程： std::thread

0 码力 | 79 页 | 14.11 MB | 1 年前
3
Zadig 产品使用手册

+ Jenkins + 脚本化运行效率低，管理维护成本高方案局限性大，安全性风险高无法支持敏捷交付模式支持从需求到发布全流程敏捷交付。尤其面向多服务并行部署发布，云原生构建环境和运行环境，基础设施对接及企业级 SSO/ 权限管理等运维管理类平台蓝鲸 Rainbond KubeSphere KubeVela 面向资源管理的运维工具集面向开发者，需结合 CI/CD Jenkins 或 CI/CD 工具搭建流程串接胶水平台局限性大扩展性差内部推广难度极高做完后价值难被证明通用性、可扩展性、技术先进性强，可以灵活广泛接入各种技术和业务场景基于代码管理的 DevOps 方案 Gitee 平台 GitLab 平台局限性大、全流程安全性低维护成本高支持多个服务并行构建部署、产品级发布，可灵活安全接入多个代码仓及周边工具链开发 Zadig 程制定上、各方能力受限、无法快速响应市场需求层级越高、对产研状态越模糊管理低效、延误战机少量配置、快速拉起环境、稳定性有保障、减少 90% 手工操作、赋能开发、员工成就感高碎片化：手工协作 + 复杂工具链工程化：一个平台一键发布工作流、环境配置自动更新、高效调试、消除手工操作、精准快速迭代、研发生产力 / 幸福感提升自助运行、系统化管理、自动化程度高、测试有效性提升、质量有保障、横向赋能、技能提升

0 码力 | 52 页 | 22.95 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化

• 这样一次随机访问之后会伴随着 64 次顺序访问，能被 CPU 检测到，从而启动缓存行预取，避免了等待数据抵达前空转浪费时间。页对齐的重要性 • 为什么要 4KB ？原来现在操作系统管理内存是用分页（ page ），程序的内存是一页一页贴在地址空间中的，有些地方可能不可访问，或者还没有分配，则把这个页设为不可用状态，访问他就会出错，进入内核模式。 • 因此硬件出于安全，预取不能跨越页边界，否则可能会触时，操作系统并不会实际分配那一块内存，而是将这一段内存标记为“不可用”。当用户试图访问（写入）这一片内存时，硬件就会触发所谓的缺页中断（ page fault ），进入操作系统内核，内核会查找当前进程的 malloc 历史记录。如果发现用户写入的地址是他曾经 malloc 过的地址区间，则执行实际的内存分配，并标记该段内存为“可用”，下次访问就不会再产生缺页中断了；而如果用户写入的地址根本不是他 malloc 过的地址，那就说明他确实犯错了，就抛出段错误（次访问也不会触发缺页中断，所以看起来比第一次快很多。进一步：分配是按页面（ 4KB ）来管理的 • 当一个尚且处于“不可用”的 malloc 过的区间被访问，操作系统不是把整个区间全部分配完毕，而是只把当前写入地址所在的页面（ 4KB 大小）给分配上。也就是说用户访问 a[0] 以后只分配了 4KB 的内存。等到用户访问了 a[1024] ，也就是触及了下一个页面，他才会继续分配一个 4KB 的页面，这时才

0 码力 | 147 页 | 18.88 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 01 学 C++ 从 CMake 学起

分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）关于作者 • 我是的堆栈回溯便于调试 7. google/googletest - 谷歌单元测试框架 8. google/benchmark - 谷歌性能评估框架 9. glfw/glfw - OpenGL 窗口和上下文管理 10.libigl/libigl - 各种图形学算法大合集 fmt - 使用这个神奇的格式化库 • fmt::format 的用法和 Python 的 str.format 大致相似： CMake

0 码力 | 32 页 | 11.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 06 TBB 开启的并行编程之旅

分为前半段和后半段，前半段主要介绍现代 C++ ，后半段主要介绍并行编程与优化。 1.课程安排与开发环境搭建： cmake 与 git 入门 2.现代 C++ 入门：常用 STL 容器， RAII 内存管理 3.现代 C++ 进阶：模板元编程与函数式编程 4.编译器如何自动优化：从汇编角度看 C++ 5.C++11 起的多线程编程：从 mutex 到无锁并行 6.并行编程常用框架： OpenMP 硬件要求： 64 位（ 32 位时代过去了）至少 2 核 4 线程（并行课…）英伟达家显卡（ GPU 专题）软件要求： Visual Studio 2019 （ Windows 用户） GCC 9 及以上（ Linux 用户） CMake 3.12 及以上（跨平台作业） Git 2.x （作业上传到 GitHub ） CUDA Toolkit 10.0 以上（ GPU 专题）第 0 章：从并发到并行，则在处理完 A 的请求之前， B 的请求就无法处理，造成“无响应”现象。 C 的请求进来，则还得继续排队…… • 每个请求开启一个线程来处理，这样处理 A 用户的同时还可以继续监听 B 用户发来的请求，及时响应，改善用户体验。 • 并行：某图形学爱好者购置了一台 4 核处理器的电脑，他正在渲染 cornell box 的图像，这个图像在单核上渲染需要 4 分钟。 • 他把图像切成

0 码力 | 116 页 | 15.85 MB | 1 年前
3
GPU Resource Management On JDOS

的机器学习训练服务 3.模型管理和模型 Serving 服务 Experiment Training Serving 均基于容器，不对业务方直接提供 GPU 物理机 GPU 实验 JDOS 常规的容器服务，使用 gpu 的 zone ，自行设定相应的镜像即可，有完善的周边服务训练服务 • 提供基于 kubeflow 的分布式训练方案 – 界面化操作，用户提供代码地址和执行命令即可系统内建支持安装 pip 依赖 – 自制存储插件支持分布式文件系统存储用户数据 – 支持官方镜像，不需要 JDOS 提前协助制作镜像 – 提供 tensorboard 作为训练监控实时查看训练状态 – 用户训练完成后释放 GPU 资源，提高 GPU 利用率 – Job 调度（部门 quota 限制 + 优先级） • 创建训练 – 用户选择集群提供代码地址和执行命令即可 – 选择所用框架（镜像）：支持官方，亦可自制服务，只需用户指定模型，即可提供 grpc 和 rest 服务，同时使用 GPU 复用 +HPA 提高 GPU 利用率创建 Serving 与训练集成 • 用户只需要简单选择机房和镜像填写模型名即可完成 Serving 服务创建自有模型 • 用户只需要填写模型地址即可 GPU 监控 • 容器监控服务，自适应 GPU 容器，可根据容器 IP 查询记录 , 便于用户查看服务状态

0 码力 | 11 页 | 13.40 MB | 1 年前
3

共 27 条前往

页

C++高性性能高性能并行编程优化课件 02 16 游人 RustCC AtlasGraph 11 05 Zadig 产品使用手册使用手册 07 01 06 GPU JDOS

分类

语言

格式