FFmpeg在Intel GPU上的硬件加速与优化## FFmpeg在Intel GPU上的硬件加速与优化 赵军 DCG/NPG @ Intel ## 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 · 附录 ## 典型的 media pipeline SOURCE libavformat ## • 依赖于后端驱动,可以提供Video硬件加速 • 解码 • 编码 • 图像后处理 ## 可用的后端驱动 • Intel VA(i965) driver for Intel chip-sets • Intel hybrid driver • Intel HD driver • Mesa's state-trackers for gallium drivers: • radeon radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge ## I ntel GPU简介 ## • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella)0 码力 | 26 页 | 964.83 KB | 2 年前3
Go on GPU## Go on GPU ## Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 ## Agenda - Basic knowledge for interacting with GPUs • Accelerate Go programs using • Conclusion and outlooks ## Agenda - Basic knowledge for interacting with GPUs o Motivation o GPU Driver and Standards Render and compute pipeline o Vulkan/Metal/DX12/OpenGL ☐ Accelerate Go programs programs using GPUs ☐ Challenges in Go when using GPUs ☐ Conclusion and outlooks ## Motivation of GPU Acceleration Improve system computation performance Increase amount of concurrency Processing large0 码力 | 57 页 | 4.62 MB | 2 年前3
Deploy VTA on Intel FPGA## DEPLOY VTA ON INTEL FPGA ## HARMAN A SAMSUNG COMPANY LIANGFU CHEN 11/16/2019 ## Moore's Law is Slowing Down 42 Years of Microprocessor Trend Data | ||Get physical memory of cma memory block (should be used for DMA). More...| ## DEPLOY VTA ON INTEL FPGA ## Software - Driver ## Cyclone V & Arria V SoC HPS Physical Memory Map ; } ## DEPLOY VTA ON INTEL FPGA ## Hardware ## Datapath of Chisel VTA  ## DEPLOY VTA ON INTEL FPGA ## Hardware  三一键编译  public/tensor/now.1.4.1-ueve-gpu-vi  public/tensorflow:1.7.0-devel-gpu-py3-v1 上,或者在无线连接、使用电池电源、睡眠、休眠或关机时无法使用或是某些功能受到限制。如欲了解更多信息,请访问:http://www.intel.com/technology/iamt。 英特尔 $ ^{®} $ 架构上的 64 位计算要求计算机系统采用支持英特尔 $ ^{®} $ 64 架构的处理器、芯片组、基本输入输出系统(BI0 码力 | 36 页 | 2.50 MB | 2 年前3
Bridging the Gap: Writing Portable Programs for CPU and GPUCPU and GPU ## THOMAS MEJSTRIK ## DIMETOR  FWF ## Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA ROCm, Vulkan, ... ☐ You can tell me about afterwards ## Why write programs for CPU and GPU ## ☐ Difference CPU/GPU Algorithms are designed differently ☐ Latency/Throughput ☐ Memory bandwidth ☐ Number Problem ☐ Why it makes sense? ☐ Scope of the talk ## Why write programs for CPU and GPU ## ☐ Difference CPU/GPU ☐ Why it makes sense? Library/Framework developers ☐ Embarrassingly parallel algorithms0 码力 | 124 页 | 4.10 MB | 1 年前3
激活函数与GPU加速## PyTorch ## 激活函数与GPU加速 主讲人:龙良曲    ## GPU accelerated ## ☐ ☐ ☐ device = torch.device('cuda:0') net = MLP().to(device) optimizer =0 码力 | 11 页 | 452.22 KB | 2 年前3
TVM@AliOSPRESENTATION AGENDA ☑ TVM @ AliOS Overview TVM @ AliOS ARM CPU TVM @ AliOS Hexagon DSP TVM @ AliOS Intel GPU ☑ Misc ## PART ONE TVM @ AliOS Overview ## AliOS Overview • AliOS (www.alios.cn) is a newly designed r0 = #0; jumpr r31 } ## PART FOUR AliOS TVM @ Intel GPU ## AliOS TVM @ Intel GPU • Implement the schedule from scratch • Leverage Intel Subgroup Extension ## Subgroups  ## AliOS TVM @ Intel GPU GEMM Hardware Efficiency @ Intel Apollo Lake GPU  往期录播:https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码:https://github.com/parallel101/course ## 前置条件 • 学过 C/C++ 语言编程。 - 理解 malloc/free 之类的概念。 • 熟悉 STL ## 编写一段在 GPU 上运行的代码 - 定义函数 kernel,前面加上 ___ global___ 修饰符,即可让他在 GPU 上执行。 - 不过调用 kernel 时,不能直接 kernel(),而是要用 kernel<<1, 1>>() 这样的三重尖括号语法。为什么?这里面的两个 1 有什么用?稍后会说明。 • 运行以后,就会在 GPU 上执行 printf kernel 函数在 GPU 上执行,称为核函数,用 ___ global___ 修饰的就是核函数。  ## 没有反应?同步一下! - 然而如果直接编译运行刚刚那段代码,是不会打印出Hello, world! 的。 这是因为 GPU 和 CPU 之间的通信,为了高效,是异步的。也就是0 码力 | 142 页 | 13.52 MB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100













