PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林ARM 架构的服务平台,如何整合 Python + AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。 - 矩阵乘法是深度学习计算的重要组成部分,我们利用 ARM 架构新提供的矩阵扩展对 bf16 类型的矩阵乘法计算进行优化,该优化将纯矩阵乘法的运算速度提升 3 倍以上,对深度学习推理任务性能提升明显。目前,该成果已经被集成进 OpenBLAS 和 PyTorch 中。 - ## 深度学习 • 广泛使用的深度学习框架 • TensorFlow、PyTorch • 结合硬件(ARM 服务端芯片) • 倚天 710 • AWS graviton • 矩阵乘法 • 为什么矩阵乘法是深度学习的核心 • Conv、Linear、Transformers  ## GEMM ## • 优化 GEMM • 内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON C 。在矩阵表示法中,我们可以更紧凑地表达: $$ Ax=b $$ $$ with A=\begin{bmatrix}4&-5\\ -2&3\end{bmatrix},b=\begin{bmatrix}-13\\0 码力 | 19 页 | 1.66 MB | 2 年前3
Composing Ancient Mathematical Knowledge Into Powerful Bit-fiddling0 码力 | 73 页 | 947.99 KB | 1 年前3
深度学习与PyTorch入门实战 - 13. Tensor统计0 码力 | 11 页 | 1.28 MB | 2 年前3
机器学习课程-温州大学-线性代数回顾机器学习-线性代数回顾 黄海广 副教授 2021年07月 ## 目录 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 ### 1. 行列式按行(列)展开定理 2\cdots,n) $ 是A的n个特征值,则 $ |A|=\prod_{i=1}^{n}\lambda_{i} $ ### 2. 矩阵 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 2. 矩阵 矩阵 $ m \times n $ 个数 $ a_{ij} $ 排成m行n列的表格 $ \left[\begin{array}{cccc} \end{array}\right] $ 称为矩阵, 简记为A,或者 $ \left(a_{ij}\right)_{m\times n} $ 。若m=n,则称A是n阶矩阵或n阶方阵。 ### 2. 矩阵 ## 矩阵的线性运算 ### 1. 矩阵的加法 设 $ A=(a_{ij}),B=(b_{ij}) $ 是两个 $ m\times n $ 矩阵,则 $ m\times n $ 矩阵 $ C=(c_{ij})=a_{ij}+b_{ij}0 码力 | 39 页 | 856.89 KB | 2 年前3
机器学习课程-温州大学-02-数学基础回顾-0.机器学习的数学基础整理(国内教材)\\{{{x_{1}^{n-1}}}}&{{{x_{2}^{n-1}}}}&{{{\ldots}}}&{{{x_{n}^{n-1}}}}\end{vmatrix}==\prod_{1\leq j ## 矩阵 矩阵: $ m \times n $ 个数 $ a_{ij} $ 排成 m 行 n 列的表格 $ \left[\begin{array}{cccc} & a_{11} & a_{12} \end{array}\right] $ 称为矩阵,简记为 A, 或者 $ \left(a_{ij}\right)_{m\times n} $ 。若m=n,则称A是n阶矩阵或n阶方阵。 ## 矩阵的线性运算 ### 1. 矩阵的加法 设 $ A=(a_{ij}), B=(b_{ij}) $ 是两个 $ m \times n $ 矩阵,则 $ m \times n $ 矩阵 $ C=(c_{ij})=a_{ij}+b_{ij} {ij} $ 称为矩阵A与B的和,记为 $ A+B=C $ 。 ### 2. 矩阵的数乘 设 $ A=(a_{ij}) $ 是 $ m\times n $ 矩阵,k是一个常数,则 $ m\times n $ 矩阵 $ (ka_{ij}) $ 称为数k与矩阵A的数乘,记为kA。 ### 3. 矩阵的乘法 设 $ A=(a_{ij}) $ 是 $ m\times n $ 矩阵, $ B=(b_{ij})0 码力 | 31 页 | 1.18 MB | 2 年前3
Facebook -- TVM AWS Meetup Talk0 码力 | 11 页 | 3.08 MB | 1 年前3
共 388 条
- 1
- 2
- 3
- 4
- 5
- 6
- 39













