Facebook -- TVM AWS Meetup Talk0 码力 | 11 页 | 3.08 MB | 1 年前3
GraphBLAS: Building a C++ Matrix API for Graph Algorithms0 码力 | 172 页 | 7.40 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型jpg) 本课涵盖:稀疏矩阵、unordered_map、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化 面向人群:图形学、CFD 仿真、深度学习编程人员  第 0 章:稀疏矩阵 ## 稠密数组存储矩阵 #define N (1024*1024) correct\n"); bate::timing("main"); return 0; 第 1 章:稀疏网格 ## 稠密网格计算粒子经过的格点数量 terminate called after throwing an instance of 'std::bad_alloc' what(): count: 193505 main: 0.00721933s 会浪费分块中一部分空间。 然而我们这里是要用他记录粒子经过的点,因此具有一定空间局域性,能够被分块优化。 实际上空间局域性正是稀疏网格能够实现的一大前提,稍后详细讨论。 struct Grid { struct MyHash { std::size_t operator()(std::tuple0 码力 | 102 页 | 9.50 MB | 2 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra1 基本符号 2. 矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3. 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4. 矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 ## 线性代数复习和参考 ### 1. 基础概念和符号 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 $ x_{1} $ 和 $ x_{2} $ 的唯一解(除非方程以某种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一解)。在矩阵表示法中,我们可以更紧凑地表达: $$ Ax=b $$ $$ with A=\begin{bmatrix}4&-5\\ -2&3\end{bmatrix},b=\begin{bmatrix}-13\\0 码力 | 19 页 | 1.66 MB | 2 年前3
深度学习与PyTorch入门实战 - 13. Tensor统计0 码力 | 11 页 | 1.28 MB | 2 年前3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林ARM 架构的服务平台,如何整合 Python + AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。 - 矩阵乘法是深度学习计算的重要组成部分,我们利用 ARM 架构新提供的矩阵扩展对 bf16 类型的矩阵乘法计算进行优化,该优化将纯矩阵乘法的运算速度提升 3 倍以上,对深度学习推理任务性能提升明显。目前,该成果已经被集成进 OpenBLAS 和 PyTorch 中。 ## 深度学习 • 广泛使用的深度学习框架 • TensorFlow、PyTorch • 结合硬件(ARM 服务端芯片) • 倚天 710 • AWS graviton • 矩阵乘法 • 为什么矩阵乘法是深度学习的核心 • Conv、Linear、Transformers  ## GEMM ## • 优化 GEMM • 内存布局:矩阵分块;重排 • 向量化指令:AVX、NEON C  企业动态宣发 新媒体矩阵覆盖百万粉丝  品牌展示通道 线上平台 e00ef/p3_1.jpg) ## ☐ 袁镱 博士,专家工程师 ☐ 研究方向:机器学习系统,云计算,大数据系统 ☐ 负责腾讯平台与内容事业群(PCG)技术中台核心引擎:无量系统。支持大规模稀疏模型训练,上线与推理 ## ☐ 无量系统 ☐ 项目于17年启动,先后经过了6个主要版本的迭代 ☐ 覆盖腾讯PCG全部业务的推荐场景,支持腾讯IEG,CSIG,QQ音乐,阅文等业务的部分推荐场景0 码力 | 22 页 | 6.76 MB | 2 年前3
机器学习课程-温州大学-线性代数回顾机器学习-线性代数回顾 黄海广 副教授 2021年07月 ## 目录 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 ### 1. 行列式按行(列)展开定理 2\cdots,n) $ 是A的n个特征值,则 $ |A|=\prod_{i=1}^{n}\lambda_{i} $ ### 2. 矩阵 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 2. 矩阵 矩阵 $ m \times n $ 个数 $ a_{ij} $ 排成m行n列的表格 $ \left[\begin{array}{cccc} \end{array}\right] $ 称为矩阵, 简记为A,或者 $ \left(a_{ij}\right)_{m\times n} $ 。若m=n,则称A是n阶矩阵或n阶方阵。 ### 2. 矩阵 ## 矩阵的线性运算 ### 1. 矩阵的加法 设 $ A=(a_{ij}),B=(b_{ij}) $ 是两个 $ m\times n $ 矩阵,则 $ m\times n $ 矩阵 $ C=(c_{ij})=a_{ij}+b_{ij}0 码力 | 39 页 | 856.89 KB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版202112神经网络本质上由大量的矩阵相乘、矩阵相加等基本数学运算构成,TensorFlow 的重要功能就是利用 GPU 方便地实现并行计算加速功能。为了演示 GPU 的加速效果,我们通过完成多次矩阵 A 和矩阵 B 的矩阵相乘运算,并测量其平均运算时间来比对。其中矩阵 A 的 shape 为 $ [1, n] $ ,矩阵 B 的 shape 为 $ [n, 1] $ ,通过调节 n 即可控制矩阵的大小。 首先分别创建使用 首先分别创建使用 CPU 和 GPU 环境运算的 2 个矩阵,代码如下: # 创建在 CPU 上运算的 2 个矩阵 cpu_a = torch.randn([1, n]) cpu_b = torch.randn([n, 1]) print(n, cpu_a.device, cpu_b.device) # 创建使用 GPU 运算的 2 个矩阵 gpu_a = torch.randn([1, n]).cuda() time:', cpu_time, gpu_time) 将不同大小n下的 CPU 和 GPU 环境的运算时间绘制为曲线,如图 1.21 所示。可以看到,在矩阵A和矩阵B较小时,CPU 和 GPU 时间非常接近,并不能体现出 GPU 并行计算的优势;在矩阵较大时,CPU 的计算时间明显上升,而 GPU 能充分发挥并行计算优势,运算时间几乎不变。 












