Go on GPUChangkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Go on GPU Changkun Ou changkun.de/s/gogpu GopherChina 2023 Session “Foundational Toolchains” 2023 June 10 1 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ● Accelerate Go programs using GPUs ● Challenges in Go when using outlooks 2 Changkun Ou. 2023. Go on GPU. GopherChina 2023. Session "Foundational Toolchains" Agenda ● Basic knowledge for interacting with GPUs ○ Motivation ○ GPU Driver and Standards ○ Render and0 码力 | 57 页 | 4.62 MB | 1 年前3
Bridging the Gap: Writing Portable Programs for CPU and GPU1/66Bridging the Gap: Writing Portable Programs for CPU and GPU using CUDA Thomas Mejstrik Sebastian Woblistin 2/66Content 1 Motivation Audience etc.. Cuda crash course Quiz time 2 Patterns Oldschool Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Algorithms are designed differently Latency/Throughput Memory bandwidth Number of cores Motivation Patterns The dark path Cuda proposal Thank you Why write programs for CPU and GPU Difference CPU/GPU Why it makes sense? Library/Framework developers Embarrassingly parallel algorithms User0 码力 | 124 页 | 4.10 MB | 6 月前3
FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream radeon, nouveau (?), freedreno, … • 废弃的 API bridges • vdpau—va bridge • powervr—va bridge • … Intel GPU简介 • Gfx Label • Gen3: Pinetrail (Pineview) • Gen4: G965 • Gen5: G4X, Ironlake (Piketon, Calpella) Kabylake • … • Intel® Processor Graphics • 3D 渲染(OpenGL & Vulkan) • Media • 显示与计算(CUDA & OpenCL) Intel GPU media 硬件编程模型 slice Ring buffer FFmpeg MSDK i965/iHD OS scheduler com1 KMD com2 com3 Batch0 码力 | 26 页 | 964.83 KB | 1 年前3
C++高性能并行编程与优化 - 课件 - 08 CUDA 开启的 GPU 编程CUDA 开启的 GPU 编程 by 彭于斌( @archibate ) 往期录播: https://www.bilibili.com/video/BV1fa411r7zp 课程 PPT 和代码: https://github.com/parallel101/course 前置条件 • 学过 C/C++ 语言编程。 • 理解 malloc/free 之类的概念。 • 熟悉 STL 中的容器、函数模板等。 做不到的。 编写一段在 GPU 上运行的代码 • 定义函数 kernel ,前面加上 __global__ 修 饰符,即可让他在 GPU 上执行。 • 不过调用 kernel 时,不能直接 kernel() ,而 是要用 kernel<<<1, 1>>>() 这样的三重尖括 号语法。为什么?这里面的两个 1 有什么用 ?稍后会说明。 • 运行以后,就会在 GPU 上执行 printf 了。 kernel 函数在 GPU 上执行,称为核 函数,用 __global__ 修饰的就是核函数。 没有反应?同步一下! • 然而如果直接编译运行刚刚那段代码,是不会打印出 Hello, world! 的。 • 这是因为 GPU 和 CPU 之间的通信,为了高效,是异 步的。也就是 CPU 调用 kernel<<<1, 1>>>() 后,并不 会立即在 GPU 上执行完毕,再返回。实际上只是把0 码力 | 142 页 | 13.52 MB | 1 年前3
2022年美团技术年货 合辑TensorFlow 在美团外卖推荐场景的 GPU 训练优化实践 855 CompletableFuture 原理与实践 - 外卖商家端 API 的异步化 879 工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 SQL 分析与审计系统性能优化之旅 1048 数据库异常智能分析与诊断 1059 美团外卖广告智能算力的探索与实践(二) 1079 Linux 下跨语言调用 C++ 实践 1101 GPU 在外卖场景精排模型预估中的应用实践 1130 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka AP,在 T4 上推理速度可达 1242 FPS;YOLOv6-s 在 COCO 上精度可达 43.1% AP,在 T4 上推理速度可达 520 FPS。在部署方面, YOLOv6 支 持 GPU(TensorRT)、CPU(OPENVINO)、ARM(MNN、TNN、 NCNN)等不同平台的部署,极大地简化工程部署时的适配工作。 目前,项目已开源至 Github,传送门:YOLOv6。欢迎有需要的小伙伴们0 码力 | 1356 页 | 45.90 MB | 1 年前3
2020美团技术年货 算法篇x2);第二步,模型预估(执行公式 f,获得最终的结果)。 4 > 美团 2020 技术年货 模型预估很简单,从业务工程的视角来看,无论多复杂,它只是一个计算分数的过 程。对于整个运算的优化,无论是矩阵运算,还是底层的 GPU 卡的加速,业界和美 团内部都有比较好的实践。美团也提供了高性能的 TF-Serving 服务(参见《基于 TensorFlow Serving 的深度学习在线预估》一文)以及自研的 MLX 模型打分服务, 在这个过程中,为了使整个流程异步非阻塞,我们要求引用的服务提供异步接口。 若部分服务未提供异步接口,可以将其包装成伪异步。这一套异步流程使得单机 (16c16g)的服务容量提升超过 100%,提高了资源的利用率。 4.2.2 预估的性能及表达式的开销 框架的优势:得益于分布式,纯异步流程,以及在特征 OP 内部做的各类优化(公用 特征 、RPC 聚合等),从老框架迁移到 Augur 后,上千份文档的深度模型预估性能 Transformer[38] 加速 BERT 推理,提升了 线上的预估速度。 为了进一步提升性能,我们将头部 Query 进行缓存只对长尾 Query 进行在线打分, 线上预估结合缓存的方式,即节约了 GPU 资源又提升了线上预估速度。经过上述优 算法 < 55 化,我们实现了 50 QPS 下,L2 模型 TP99 只升高了 2ms,满足了上线的要求。 线上效果 针对前文所述的各种优化策略,除了离线0 码力 | 317 页 | 16.57 MB | 1 年前3
07 FPGA 助力Python加速计算 陈志勇工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? Ø 传统的计算平台:基于通用处理器的架构,Intel x86 Ø 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 Ø 嵌入式计算: Ø 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 Ø 并行计算:多处理器、多线程计算 Ø 分布式计算引擎:Spark Ø 并行计算语言(函数式编程):Scala Ø 加速方法: Ø 算法的优化 Ø 算法的并行化 Ø CPU: 多核 CPU Ø GPU: 多核处理器 Ø 硬件仿真:算法计算在FPGA里实现,输入和输出在 PC 端实现。 Ø Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 Ø 全面覆盖 C、C++、OpenCL,能够进行浮点运算和任意精度浮点运算 Ø 可以输出 Verilog和 VHDL代码 Ø 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 Ø 从算法验证到硬件实现的自动化工作流程 Ø 适合C算法的工程师进行快速硬件验证 Ø 赛灵思提供基于 OpenCV 的库函数,适用于图像处理 Ø 高层次EDA开发工具,C开发者的福音,Xilinx0 码力 | 34 页 | 6.89 MB | 1 年前3
2_FPGA助力Python加速计算_陈志勇工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? Ø 传统的计算平台:基于通用处理器的架构,Intel x86 Ø 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 Ø 嵌入式计算: Ø 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 Ø 并行计算:多处理器、多线程计算 Ø 分布式计算引擎:Spark Ø 并行计算语言(函数式编程):Scala Ø 加速方法: Ø 算法的优化 Ø 算法的并行化 Ø CPU: 多核 CPU Ø GPU: 多核处理器 Ø 硬件仿真:算法计算在FPGA里实现,输入和输出在 PC 端实现。 Ø Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 Ø 全面覆盖 C、C++、OpenCL,能够进行浮点运算和任意精度浮点运算 Ø 可以输出 Verilog和 VHDL代码 Ø 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 Ø 从算法验证到硬件实现的自动化工作流程 Ø 适合C算法的工程师进行快速硬件验证 Ø 赛灵思提供基于 OpenCV 的库函数,适用于图像处理 Ø 高层次EDA开发工具,C开发者的福音,Xilinx0 码力 | 33 页 | 8.99 MB | 1 年前3
FPGA助力Python加速计算 陈志勇 工程师关心的问题 3 Python 工程师开发嵌入式产品的时候哪些地方可能会遇到性能瓶颈? ➢ 传统的计算平台:基于通用处理器的架构,Intel x86 ➢ 新的嵌入式计算平台:MCU,DSP,FPGA,GPU、ASSP等 ➢ 嵌入式计算: ➢ 嵌入式系统是以应用为中心,以计算机技术为基础,软硬件可裁剪,适用于应用系统对功能、可靠 性、成本、体积、功耗有严格要求的专用计算机系统,它一般由嵌入式微处理器、外围硬件设备、 ➢ 并行计算:多处理器、多线程计算 ➢ 分布式计算引擎:Spark ➢ 并行计算语言(函数式编程):Scala ➢ 加速方法: ➢ 算法的优化 ➢ 算法的并行化 ➢ CPU: 多核 CPU ➢ GPU: 多核处理器 ➢ 硬件仿真:算法计算在FPGA里实现,输入和输出在 PC 端实现。 ➢ Hardware in the loop simulation 加速计算 (Accelerate Computing) 语言的转换工具 ➢ 全面覆盖 C、C++、OpenCL,能够进行浮点运算和任意精度浮点运算 ➢ 可以输出 Verilog和 VHDL代码 ➢ 可以通过制定约束 (Directive) 来提高运算性能和优化资源利用率 ➢ 从算法验证到硬件实现的自动化工作流程 ➢ 适合C算法的工程师进行快速硬件验证 ➢ 赛灵思提供基于 OpenCV 的库函数,适用于图像处理 ➢ 高层次EDA开发工具,C开发者的福音,Xilinx0 码力 | 34 页 | 4.19 MB | 1 年前3
Build Python App with Serverless 费良宏 • Architect Evangelist @ (2004-2011) … Serverless 为何而生 ? 为什么需要“无服务器”? 服务部署及利用率 可用性及容错度 监控、调度 运行及管理 什么是“Serverless”? 无需管理基础设施 自动扩展 按价值付费 高可用以及安全 “无服务”是一种新的模型,它跨越许多不同类别的服务 AWS 带来的响应延迟 • 资源限制 …… 并发、I/O、内存、程序包大小等等 • 监控与调试 …… 需要新的IDE、APM、DevOps、分析器等工具 • 缺少特定的硬件支持 ……只有通用的计算环境,缺如GPU、FPGA等支持 • 标准化 …… 可移植性的问题 “冷启动” 带来的响应延迟 1 10 100 1000 Java F# C# Haskell Rust Ruby Go Node.js0 码力 | 35 页 | 7.81 MB | 1 年前3
共 298 条
- 1
- 2
- 3
- 4
- 5
- 6
- 30













