GPU利用率 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Go on GPU

Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Go on GPU Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 1 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ● Accelerate Go programs using GPUs ● Challenges in Go when using outlooks 2 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ○ Motivation ○ GPU Driver and Standards ○ Render and

0 码力 | 57 页 | 4.62 MB | 1 年前
3
Bridging the Gap: Writing Portable Programs for CPU and GPU

1/66Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA Thomas Mejstrik Sebastian Woblistin 2/66Content 1 Motivation Audience etc.. Cuda crash course Quiz time 2 Patterns Oldschool Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Algorithms are designed differently Latency/Throughput Memory bandwidth Number of cores Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Why it makes sense? Library/Framework developers Embarrassingly parallel algorithms User

0 码力 | 124 页 | 4.10 MB | 6 月前
3
FFmpeg在Intel GPU上的硬件加速与优化

FFmpeg在Intel GPU上的硬件加速与优化赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算（CUDA & OpenCL） Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch

0 码力 | 26 页 | 964.83 KB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

CUDA 开启的 GPU 编程 by 彭于斌（ @archibate ）往期录播： https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码： https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。做不到的。编写一段在 GPU 上运行的代码 • 定义函数 kernel ，前面加上 __global__ 修饰符，即可让他在 GPU 上执行。 • 不过调用 kernel 时，不能直接 kernel() ，而是要用 kernel<<<1, 1>>>() 这样的三重尖括号语法。为什么？这里面的两个 1 有什么用？稍后会说明。 • 运行以后，就会在 GPU 上执行 printf 了。 kernel 函数在 GPU 上执行，称为核函数，用 __global__ 修饰的就是核函数。没有反应？同步一下！ • 然而如果直接编译运行刚刚那段代码，是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信，为了高效，是异步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后，并不会立即在 GPU 上执行完毕，再返回。实际上只是把

0 码力 | 142 页 | 13.52 MB | 1 年前
3
2022年美团技术年货合辑

TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 855 CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密（一） 953 提升资源利用率与保障服务质量，鱼与熊掌不可兼得？ 971 SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践（二） 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka AP，在 T4 上推理速度可达 1242 FPS；YOLOv6-s 在 COCO 上精度可达 43.1% AP，在 T4 上推理速度可达 520 FPS。在部署方面， YOLOv6 支持 GPU（TensorRT）、CPU（OPENVINO）、ARM（MNN、TNN、 NCNN）等不同平台的部署，极大地简化工程部署时的适配工作。目前，项目已开源至 Github，传送门：YOLOv6。欢迎有需要的小伙伴们

0 码力 | 1356 页 | 45.90 MB | 1 年前
3
2020美团技术年货算法篇

x2）；第二步，模型预估（执行公式 f，获得最终的结果）。 4 > 美团 2020 技术年货模型预估很简单，从业务工程的视角来看，无论多复杂，它只是一个计算分数的过程。对于整个运算的优化，无论是矩阵运算，还是底层的 GPU 卡的加速，业界和美团内部都有比较好的实践。美团也提供了高性能的 TF-Serving 服务（参见《基于 TensorFlow Serving 的深度学习在线预估》一文）以及自研的 MLX 模型打分服务，在这个过程中，为了使整个流程异步非阻塞，我们要求引用的服务提供异步接口。若部分服务未提供异步接口，可以将其包装成伪异步。这一套异步流程使得单机（16c16g）的服务容量提升超过 100%，提高了资源的利用率。 4.2.2 预估的性能及表达式的开销框架的优势：得益于分布式，纯异步流程，以及在特征 OP 内部做的各类优化（公用特征、RPC 聚合等），从老框架迁移到 Augur 后，上千份文档的深度模型预估性能 Transformer[38] 加速 BERT 推理，提升了线上的预估速度。为了进一步提升性能，我们将头部 Query 进行缓存只对长尾 Query 进行在线打分，线上预估结合缓存的方式，即节约了 GPU 资源又提升了线上预估速度。经过上述优算法 < 55 化，我们实现了 50 QPS 下，L2 模型 TP99 只升高了 2ms，满足了上线的要求。线上效果针对前文所述的各种优化策略，除了离线

0 码力 | 317 页 | 16.57 MB | 1 年前
3
07 FPGA 助力Python加速计算陈志勇

工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈？ Ø 传统的计算平台：基于通用处理器的架构，Intel x86 Ø 新的嵌入式计算平台：MCU，DSP，FPGA，GPU、ASSP等 Ø 嵌入式计算： Ø 嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统，它一般由嵌入式微处理器、外围硬件设备、 Ø 并行计算：多处理器、多线程计算 Ø 分布式计算引擎：Spark Ø 并行计算语言（函数式编程）：Scala Ø 加速方法： Ø 算法的优化 Ø 算法的并行化 Ø CPU: 多核 CPU Ø GPU：多核处理器 Ø 硬件仿真：算法计算在FPGA里实现，输入和输出在 PC 端实现。 Ø Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 Ø 全面覆盖 C、C++、OpenCL，能够进行浮点运算和任意精度浮点运算 Ø 可以输出 Verilog和 VHDL代码 Ø 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 Ø 从算法验证到硬件实现的自动化工作流程 Ø 适合C算法的工程师进行快速硬件验证 Ø 赛灵思提供基于 OpenCV 的库函数，适用于图像处理 Ø 高层次EDA开发工具，C开发者的福音，Xilinx

0 码力 | 34 页 | 6.89 MB | 1 年前
3
2_FPGA助力Python加速计算_陈志勇

工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈？ Ø 传统的计算平台：基于通用处理器的架构，Intel x86 Ø 新的嵌入式计算平台：MCU，DSP，FPGA，GPU、ASSP等 Ø 嵌入式计算： Ø 嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统，它一般由嵌入式微处理器、外围硬件设备、 Ø 并行计算：多处理器、多线程计算 Ø 分布式计算引擎：Spark Ø 并行计算语言（函数式编程）：Scala Ø 加速方法： Ø 算法的优化 Ø 算法的并行化 Ø CPU: 多核 CPU Ø GPU：多核处理器 Ø 硬件仿真：算法计算在FPGA里实现，输入和输出在 PC 端实现。 Ø Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 Ø 全面覆盖 C、C++、OpenCL，能够进行浮点运算和任意精度浮点运算 Ø 可以输出 Verilog和 VHDL代码 Ø 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 Ø 从算法验证到硬件实现的自动化工作流程 Ø 适合C算法的工程师进行快速硬件验证 Ø 赛灵思提供基于 OpenCV 的库函数，适用于图像处理 Ø 高层次EDA开发工具，C开发者的福音，Xilinx

0 码力 | 33 页 | 8.99 MB | 1 年前
3
FPGA助力Python加速计算陈志勇

工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈？ ➢ 传统的计算平台：基于通用处理器的架构，Intel x86 ➢ 新的嵌入式计算平台：MCU，DSP，FPGA，GPU、ASSP等 ➢ 嵌入式计算： ➢ 嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统，它一般由嵌入式微处理器、外围硬件设备、 ➢ 并行计算：多处理器、多线程计算 ➢ 分布式计算引擎：Spark ➢ 并行计算语言（函数式编程）：Scala ➢ 加速方法： ➢ 算法的优化 ➢ 算法的并行化 ➢ CPU: 多核 CPU ➢ GPU：多核处理器 ➢ 硬件仿真：算法计算在FPGA里实现，输入和输出在 PC 端实现。 ➢ Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 ➢ 全面覆盖 C、C++、OpenCL，能够进行浮点运算和任意精度浮点运算 ➢ 可以输出 Verilog和 VHDL代码 ➢ 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 ➢ 从算法验证到硬件实现的自动化工作流程 ➢ 适合C算法的工程师进行快速硬件验证 ➢ 赛灵思提供基于 OpenCV 的库函数，适用于图像处理 ➢ 高层次EDA开发工具，C开发者的福音，Xilinx

0 码力 | 34 页 | 4.19 MB | 1 年前
3
Build Python App with Serverless 费良宏

• Architect Evangelist @ (2004-2011) … Serverless 为何而生？为什么需要“无服务器”？服务部署及利用率可用性及容错度监控、调度运行及管理什么是“Serverless”? 无需管理基础设施自动扩展按价值付费高可用以及安全 “无服务”是一种新的模型，它跨越许多不同类别的服务 AWS 带来的响应延迟 • 资源限制 …… 并发、I/O、内存、程序包大小等等 • 监控与调试 …… 需要新的IDE、APM、DevOps、分析器等工具 • 缺少特定的硬件支持 ……只有通用的计算环境，缺如GPU、FPGA等支持 • 标准化 …… 可移植性的问题 “冷启动” 带来的响应延迟 1 10 100 1000 Java F# C# Haskell Rust Ruby Go Node.js

0 码力 | 35 页 | 7.81 MB | 1 年前
3

共 298 条前往

页

分类

语言

格式

Go on GPU

Bridging the Gap: Writing Portable Programs for CPU and GPU

FFmpeg在Intel GPU上的硬件加速与优化

C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程

2022年美团技术年货合辑

2020美团技术年货算法篇

07 FPGA 助力Python加速计算陈志勇

2_FPGA助力Python加速计算_陈志勇

FPGA助力Python加速计算陈志勇

Build Python App with Serverless 费良宏