使用硬件加速Tokio - 戴翔第三届中国 Rust 开发者大会 使用硬件加速 Tokio 演讲人: Loong.Dai, Cathy.Lu Loong Dai • Intel 云原生工程师 • 微软 MVP • Dapr 、 Thanos 、 Golangci-lint 的 Maintainer • 现在主要专注于服务网格领域,探索云原生软硬件结 合新范式 • Github ID: daixiang0 自我介绍0 码力 | 17 页 | 1.66 MB | 1 年前3
FFmpeg在Intel GPU上的硬件加速与优化FFmpeg在Intel GPU上的 硬件加速与优化 赵军 DCG/NPG @ Intel 介绍FFmpeg VAAPI • Media pipeline review • 何谓FFmpeg VAAPI • 为什么我们需要FFmpeg VAAPI • 当前状态 • 更进一步的计划 • 附录 典型的 media pipeline File Device Network Stream XvMC-VLD • VLD (slice level acceleration) • MPEG-2, MPEG-4 on VIA Unichrome • Xv/XvMC 的限制 • 不支持解码所有阶段的硬件加速 • 依赖于X-protocol协议(转码时候,你需要Xwindow吗?) • 不支持硬件编码加速 • … Linux Video API 续 一 • 何谓VA-API(Video Acceleration MIT license • It opens and registers a backend • https://github.com/01org/libva • 依赖于后端驱动,可以提供Video硬件加速 • 解码 • 编码 • 图像后处理 可用的后端驱动 • Intel VA(i965) driver for Intel chip-sets • Intel hybrid driver • Intel0 码力 | 26 页 | 964.83 KB | 1 年前3
07 FPGA 助力Python加速计算 陈志勇的生态环境:软件平台、硬件平台、方案合作伙伴 等 Ø 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? Ø 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 Ø 本次题目的主要内容 Ø Python <- tools -> FPGA Ø 算法硬件加速:用FPGA的逻辑硬件实现算法加速 Ø 算法如何在FPGA 中实现?如何用”与或非”门电路去 写算法? Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 Ø 大家对硬件加速的最初印象 Ø 不仅是嵌入式系统 软件仿真和硬件仿真 7 Ø 近期很热门的话题 Ø 目的:提高算法计算效率,缩短算法开发时间和验证时间 Ø 加速框架: Ø 分布式计算:多节点计算 Ø 并行计算:多处理器、多线程计算 利用实际的硬件环境。 Ø 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 34 页 | 6.89 MB | 1 年前3
FPGA助力Python加速计算 陈志勇 Python 的生态环境:软件平台、硬件平台、方案合作伙伴等 ➢ 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? ➢ 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 ➢ 本次题目的主要内容 ➢ Python <- tools -> FPGA ➢ 算法硬件加速:用FPGA的逻辑硬件实现算法加速 ➢ 算法如何在FPGA 中实现?如何用”与或非”门电路去写 算法? ➢ 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 ➢ 大家对硬件加速的最初印象 ➢ 不仅是嵌入式系统 软件仿真和硬件仿真 7 ➢ 近期很热门的话题 ➢ 目的:提高算法计算效率,缩短算法开发时间和验证时间 ➢ 加速框架: ➢ 分布式计算:多节点计算 ➢ 并行计算:多处理器、多线程计算 利用实际的硬件环境。 ➢ 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 34 页 | 4.19 MB | 1 年前3
2_FPGA助力Python加速计算_陈志勇Python 的生态环境:软件平台、硬件平台、方案合作伙伴等 Ø 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? Ø 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 Ø 本次题目的主要内容 Ø Python <- tools -> FPGA Ø 算法硬件加速:用FPGA的逻辑硬件实现算法加速 Ø 算法如何在FPGA 中实现?如何用”与或非”门电路去写 算法? Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 Ø 大家对硬件加速的最初印象 Ø 不仅是嵌入式系统 软件仿真和硬件仿真 7 Ø 近期很热门的话题 Ø 目的:提高算法计算效率,缩短算法开发时间和验证时间 Ø 加速框架: Ø 分布式计算:多节点计算 Ø 并行计算:多处理器、多线程计算 利用实际的硬件环境。 Ø 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 33 页 | 8.99 MB | 1 年前3
ffmpeg基本杂谈_20171116
G723/G726/G729(DE)、MP1/MP2/MP3(DE)、WMA(DE)、 GSM(D)、AC3(DE)、OPUS等等。 • S : ass、 SRT、XSUB等等。 • 硬件加速:VDA/Videotoolbox/Audiotoolbox/VAAPI/QSV/ NVENC/CUVID/OMX等等。 FFmpeg Device • 硬件⽅式:CDIO / DC1394 Seek 定位数据位置 Read/Write 读写数据 Pause/Shutdown 暂停/停⽌ Check 检测 FFmpeg KS [其他接⼜] • FFmpeg AVHWAccel硬件加速层: start_frame/end_frame 编码控制 decode_slice 解码控制 • FFmpeg⽹络层: 异步⽀持poll,iocp仅是提供接⼜框架; 同步代码内嵌⽀持。0 码力 | 55 页 | 20.91 MB | 1 年前3
ffmpeg翻译文档(input,per-stream) :使用硬件加速解码匹配的流。允许 的 hwaccel 值为: none :没有硬件加速(默认值) auto :自动选择硬件加速 vda :使用Apple的VDA硬件加速 vdpau :使用VDPAU(Video Decode and Presentation API for Unix,类unix 下的技术标准)硬件加速 dxva2 :使用DXVA2 装方式,你可能需要通过 --extra-cflags 和 --extra-ldflags 为编译指定本地的头文件和库文件 兼容OpenAL的实现有: Creative 官方的Windows实现,提供后备支持硬件加速的设备和软件,参考http://openal.org/ OpenAL Soft 便携式,开源(LGPL)软件实现。包括在Windows,Linux、Solaris、BSD操作系统上提供最常0 码力 | 502 页 | 3.06 MB | 1 年前3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON 原始算法 展开4x1 向量化 GEMM • 优化 GEMM • 内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON • 硬件加速 • Nvidia Volta 架构引入 tensor core • Intel AMX, Advanced Matrix Extension • ARM SME, Scalable Matrix0 码力 | 24 页 | 4.00 MB | 1 年前3
大规模高性能区块链架构设计模式与测试框架-李世敬的⼤规模⾼性能共识算法 失效恢复&动态准⼊ 新节点 全⽹共识 发起请求 验证更新 l ⾃研Recovery机制,实现动态数据失效恢复 l 基于配置交易机制⽀持节点动态增删灵活扩展 l GPU硬件加速模型,⼤幅提升共识效率 ⽹络复杂度: 从O (n2) /O (n3) O (n) P R node1 node2 node3 node4 Propose Response l 流⽔线并发共识机制,共识效率显著提⾼0 码力 | 39 页 | 56.58 MB | 1 年前3
FISCO BCOS 2.2.0 中文文档能优 优 优化 化 化 性能的优化有两个方向,向上扩展(Scale up)和平行扩展(Scale out)。向上扩展指在有限的资源基础 上优化软硬件配置,极大提升处理能力,如采用更有效率的算法,采用硬件加速等。平行扩展指系统架 构具有良好的可扩展性,可以采用分片、分区的方式承载不同的用户、业务流的处理,只要适当增加软 硬件资源,就能承载更多的请求。 性能指标和软件架构,硬件配置如CPU、内存、存储0 码力 | 418 页 | 6.51 MB | 1 年前3
共 39 条
- 1
- 2
- 3
- 4













