07 FPGA 助力Python加速计算 陈志勇的生态环境:软件平台、硬件平台、方案合作伙伴 等 Ø 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? Ø 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 Ø 本次题目的主要内容 Ø Python <- tools -> FPGA Ø 算法硬件加速:用FPGA的逻辑硬件实现算法加速 Ø 算法如何在FPGA 中实现?如何用”与或非”门电路去 写算法? Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 Ø 大家对硬件加速的最初印象 Ø 不仅是嵌入式系统 软件仿真和硬件仿真 7 Ø 近期很热门的话题 Ø 目的:提高算法计算效率,缩短算法开发时间和验证时间 Ø 加速框架: Ø 分布式计算:多节点计算 Ø 并行计算:多处理器、多线程计算 利用实际的硬件环境。 Ø 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 34 页 | 6.89 MB | 1 年前3
FPGA助力Python加速计算 陈志勇 Python 的生态环境:软件平台、硬件平台、方案合作伙伴等 ➢ 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? ➢ 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 ➢ 本次题目的主要内容 ➢ Python <- tools -> FPGA ➢ 算法硬件加速:用FPGA的逻辑硬件实现算法加速 ➢ 算法如何在FPGA 中实现?如何用”与或非”门电路去写 算法? ➢ 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 ➢ 大家对硬件加速的最初印象 ➢ 不仅是嵌入式系统 软件仿真和硬件仿真 7 ➢ 近期很热门的话题 ➢ 目的:提高算法计算效率,缩短算法开发时间和验证时间 ➢ 加速框架: ➢ 分布式计算:多节点计算 ➢ 并行计算:多处理器、多线程计算 利用实际的硬件环境。 ➢ 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 34 页 | 4.19 MB | 1 年前3
2_FPGA助力Python加速计算_陈志勇Python 的生态环境:软件平台、硬件平台、方案合作伙伴等 Ø 用 Python 如何开发嵌入式产品?如何实现 算法硬件加速? Ø 之前基于python开发的工程师很少接触嵌入式环境, 接触硬件 Ø 本次题目的主要内容 Ø Python <- tools -> FPGA Ø 算法硬件加速:用FPGA的逻辑硬件实现算法加速 Ø 算法如何在FPGA 中实现?如何用”与或非”门电路去写 算法? Ø 硬件仿真:使用附加的硬件来替代用户系统的单片机并 完成单片机全部或大部分的功能。使用了附加硬件后用 户就可以对程序的运行进行控制,例如单步,全速,查 看资源断点等。硬件仿真是开发过程中所必须的。 Ø 大家对硬件加速的最初印象 Ø 不仅是嵌入式系统 软件仿真和硬件仿真 7 Ø 近期很热门的话题 Ø 目的:提高算法计算效率,缩短算法开发时间和验证时间 Ø 加速框架: Ø 分布式计算:多节点计算 Ø 并行计算:多处理器、多线程计算 利用实际的硬件环境。 Ø 常规python程序调试:开发者仍然可以用之前熟悉的环境去调试,host 可以是PC机,先把python 程序的 逻辑调试成功。PYNQ 主要是做了python算子和外设的硬件加速,做了个映射的工作。 PYNQ 是如何加速 Python 设计效率的 – con’t 16 • Follow the Steps: • https://pynq.readthedocs.io/en/v20 码力 | 33 页 | 8.99 MB | 1 年前3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON 原始算法 展开4x1 向量化 GEMM • 优化 GEMM • 内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON • 硬件加速 • Nvidia Volta 架构引入 tensor core • Intel AMX, Advanced Matrix Extension • ARM SME, Scalable Matrix0 码力 | 24 页 | 4.00 MB | 1 年前3
共 4 条
- 1













