GPU加速 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

FFmpeg在Intel GPU上的硬件加速与优化

## FFmpeg在Intel GPU上的硬件加速与优化赵军 DCG/NPG @ Intel ## 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 · 附录 ## 典型的 media pipeline SOURCE libavformat acceleration) MPEG-2, MPEG-4 on VIA Unichrome ## • Xv/XvMC 的限制 - 不支持解码所有阶段的硬件加速 - 依赖于X-protocol协议（转码时候，你需要Xwindow吗？） - 不支持硬件编码加速 ## Linux Video API 续一 ## • 何谓VA-API(Video Acceleration API ) • An API license • It opens and registers a backend https://github.com/01org/libva ## • 依赖于后端驱动，可以提供Video硬件加速 • 解码 • 编码 • 图像后处理 ## 可用的后端驱动 • Intel VA(i965) driver for Intel chip-sets • Intel hybrid driver

0 码力 | 26 页 | 964.83 KB | 2 年前
3
Go on GPU

## Go on GPU ## Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 ## Agenda - Basic knowledge for interacting with GPUs • Accelerate Go programs using • Conclusion and outlooks ## Agenda - Basic knowledge for interacting with GPUs o Motivation o GPU Driver and Standards Render and compute pipeline o Vulkan/Metal/DX12/OpenGL ☐ Accelerate Go programs programs using GPUs ☐ Challenges in Go when using GPUs ☐ Conclusion and outlooks ## Motivation of GPU Acceleration Improve system computation performance Increase amount of concurrency Processing large

0 码力 | 57 页 | 4.62 MB | 2 年前
3
激活函数与GPU加速

## PyTorch ## 激活函数与GPU加速主讲人：龙良曲 ![Image](/uploads/documents/a/1/2/3/a123d1e5f7cf442518ac7eb1e3f17c73/p2_1.jpg) ![Image](/uploads/documents/a/1/2/3/a123d1e5f7cf442518ac7eb1e3f17c73/p3_1.jpg) ![Ima \beta*x)) $$ ![Image](/uploads/documents/a/1/2/3/a123d1e5f7cf442518ac7eb1e3f17c73/p7_1.jpg) ## GPU accelerated ## ☐ ☐ ☐ device = torch.device('cuda:0') net = MLP().to(device) optimizer =

0 码力 | 11 页 | 452.22 KB | 2 年前
3
GPU Resource Management On JDOS

## GPU Resource Management On JDOS 梁永清 liangyongqing1@jd.com ## 提供的服务 ## Experiment ## Training 1. 用于实验的 GPU 容器 2. 基于 Kubeflow 的机器学习训练服务 3. 模型管理和模型 Serving 服务 ## Serving 均基于容器，不对业务方直接提供 GPU 物理机物理机 ## GPU 实验 JDOS 常规的容器服务，使用 gpu 的 zone，自行设定相应的镜像即可，有完善的周边服务我的系统 ![Image](/uploads/documents/8/5/3/d/853d658ef8422c42cb997f278e0dedcd/p3_2.jpg) 三一键编译 ![Image](/uploads/documents/8/5/3/d/85 _4.jpg) public/tensor/now.1.4.1-ueve-gpu-vi ![Image](/uploads/documents/8/5/3/d/853d658ef8422c42cb997f278e0dedcd/p3_5.jpg) public/tensorflow:1.7.0-devel-gpu-py3-v1 ![Image](/uploads/documents/8/

0 码力 | 11 页 | 13.40 MB | 2 年前
3
Cilium的网络加速秘诀

## Kubernetes Community Days ## cilium的网络加速秘诀蓝维洲 2021.10.16 Kubernetes Community Days ## 演讲人 ## 手 Kubernetes Community Days ![Image](/uploads/documents/c/3/f/4/c3f4f2152433e1071cd29634fd0a87a7/p3_1 google正式采纳 cilium 作为 GKE产品的网络方案截止2021.10, cilium 合入了 AWS、AKS、GKE、Alibaba 等公有云厂商的 IPAM 逻辑代码 ## Cilium加速网络性能提升的主要表现： • 不同场景下，不同程度地降低了网络数据包的“转发延时” • 不同场景下，不同程度地提升了网络数据包的“吞吐量” • 不同场景下，不同程度地降低了转发数据包所需的“CPU开销” 大提升了内核处理事件的效率。 ![Image](/uploads/documents/c/3/f/4/c3f4f2152433e1071cd29634fd0a87a7/p6_2.jpg) ## 加速同节点pod间通信 cilium 使用 eBPF 程序，借助 bpf_redirect() 或 bpf_redirect_peer() 等 helper 函数，快速帮助同宿主机间的流量转发，节省了大量的内核协议栈处理流程

0 码力 | 14 页 | 11.97 MB | 2 年前
3
Bridging the Gap: Writing Portable Programs for CPU and GPU

CPU and GPU ## THOMAS MEJSTRIK ## DIMETOR ![Image](/uploads/documents/e/0/4/9/e04984c6d792732e1852981d08548d37/p2_2.jpg) FWF ## Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA ROCm, Vulkan, ... ☐ You can tell me about afterwards ## Why write programs for CPU and GPU ## ☐ Difference CPU/GPU Algorithms are designed differently ☐ Latency/Throughput ☐ Memory bandwidth ☐ Number Problem ☐ Why it makes sense? ☐ Scope of the talk ## Why write programs for CPU and GPU ## ☐ Difference CPU/GPU ☐ Why it makes sense? Library/Framework developers ☐ Embarrassingly parallel algorithms

0 码力 | 124 页 | 4.10 MB | 1 年前
3
Alluxio 助力 Kubernetes，加速云端深度学习

## Alluxio 助力 Kubernetes，加速云端深度学习范斌 Alluxio 创始成员车漾阿里云高级技术专家 ## 目录 - 我们是谁 - 问题背景 - Alluxio 助力云原生 AI 模型训练 - Alluxio 是谁 - Alluxio 与 Kubernetes 结合 - Alluxio 优化实践 - 相关资料 ## 我们是谁？模拟数据训练速度 ![Image](/uploads/documents/5/d/3/7/5d37b0273d2ed3d528bc781dfaf07684/p5_1.jpg) 分布式训练/GPU硬件升级加速明显 ## 模拟数据训练时间 ![Image](/uploads/documents/5/d/3/7/5d37b0273d2ed3d528bc781dfaf07684/p6_1.jpg) 1卡：12.78 元/小时 x108 = 1380.24 元 ## 数据访问的新挑战 1. 强大的算力需要匹配的I/O吞吐 2. 计算存储分离导致 I/O 延迟 3. 单机缓存无法满足海量数据加速 ![Image](/uploads/documents/5/d/3/7/5d37b0273d2ed3d528bc781dfaf07684/p7_1.jpg) ![Image](/upload

0 码力 | 22 页 | 11.79 MB | 2 年前
3
使用硬件加速Tokio - 戴翔

## RUST CHINA CONF 2023 第三届中国 Rust 开发者大会 6.17-6.18 @Shanghai ## 使用硬件加速 Tokio 演讲人：Loong.Dai, Cathy.Lu ## 😍 ## 自我介绍 ![Image](/uploads/documents/d/a/a/6/daa6b955a7e7614d8e8dde4ebcdf0f5c/p3_1.jpg)

0 码力 | 17 页 | 1.66 MB | 2 年前
3
FPGA助力Python加速计算陈志勇

## FPGA 助力 Python 加速计算陈志勇高级技术市场经理安富利电子科技 2019年10月19日，北京 ![Image](/uploads/documents/d/c/8/8/dc88f8a54aa261256e8a48f36d5e29d5/p1_1.jpg) ![Image](/uploads/documents/d/c/8/8/dc88f8a54aa261256e8a48f36d5e29d5/p1_2 的生态环境：软件平台、硬件平台、方案合作伙伴等 ➢ 用 Python 如何开发嵌入式产品？如何实现算法硬件加速？之前基于python开发的工程师很少接触嵌入式环境，接触硬件 ➢ 本次题目的主要内容 ➢ Python <- tools -> FPGA ➢ 算法硬件加速：用FPGA的逻辑硬件实现算法加速 ➢ 算法如何在FPGA中实现？如何用“与或非”门电路去写算法？目前哪些 Xilinx 新的嵌入式计算平台：MCU，DSP，FPGA，GPU、ASSP等 ➢ 嵌入式计算：嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统，它一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户的应用程序等四个部分组成。 ➢ 嵌入式系统促使计算机的形态和性能更加小型化,多功能,低功耗. ## 加速计算： ➢ 如何提高计算效率，提高计算性能

0 码力 | 34 页 | 4.19 MB | 2 年前
3
07 FPGA 助力Python加速计算陈志勇

## FPGA 助力 Python 加速计算陈志勇高级技术市场经理安富利电子科技 2019年10月20日，深圳 ![Image](/uploads/documents/e/3/3/4/e334f61741573221602c5a3234497644/p1_1.jpg) ![Image](/uploads/documents/e/3/3/4/e334f61741573221602c5a3234497644/p1_2 的生态环境：软件平台、硬件平台、方案合作伙伴等 ➢ 用 Python 如何开发嵌入式产品？如何实现算法硬件加速？之前基于python开发的工程师很少接触嵌入式环境，接触硬件 ➢ 本次题目的主要内容 Python <- tools -> FPGA ➢ 算法硬件加速：用FPGA的逻辑硬件实现算法加速 ➢ 算法如何在FPGA中实现？如何用“与或非”门电路去写算法？ ➢ 目前哪些 Xilinx 新的嵌入式计算平台：MCU，DSP，FPGA，GPU、ASSP等 ➢ 嵌入式计算：嵌入式系统是以应用为中心，以计算机技术为基础，软硬件可裁剪，适用于应用系统对功能、可靠性、成本、体积、功耗有严格要求的专用计算机系统，它一般由嵌入式微处理器、外围硬件设备、嵌入式操作系统以及用户的应用程序等四个部分组成。 ➢ 嵌入式系统促使计算机的形态和性能更加小型化,多功能,低功耗. 加速计算： ➢ 如何提高计算效率，提高计算性能

0 码力 | 34 页 | 6.89 MB | 2 年前
3

共 921 条前往

页

分类

语言

格式

FFmpeg在Intel GPU上的硬件加速与优化

Go on GPU

激活函数与GPU加速

GPU Resource Management On JDOS

Cilium的网络加速秘诀

Bridging the Gap: Writing Portable Programs for CPU and GPU

Alluxio 助力 Kubernetes，加速云端深度学习

使用硬件加速Tokio - 戴翔

FPGA助力Python加速计算陈志勇

07 FPGA 助力Python加速计算陈志勇

搜索

分类

语言

格式