稀疏矩阵 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Facebook -- TVM AWS Meetup Talk

0 码力 | 11 页 | 3.08 MB | 1 年前
3
GraphBLAS: Building a C++ Matrix API for Graph Algorithms

0 码力 | 172 页 | 7.40 MB | 1 年前
3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

jpg) 本课涵盖：稀疏矩阵、unordered_map、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、CFD 仿真、深度学习编程人员 ![Image](/uploads/documents/9/b/e/8/9be89f35442491e3b52b86402e3652be/p1_4.jpg) 第 0 章：稀疏矩阵 ## 稠密数组存储矩阵 #define N (1024*1024) correct\n"); bate::timing("main"); return 0; 第 1 章：稀疏网格 ## 稠密网格计算粒子经过的格点数量 terminate called after throwing an instance of 'std::bad_alloc' what(): count: 193505 main: 0.00721933s 会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。 struct Grid { struct MyHash { std::size_t operator()(std::tuple
0 码力 | 102 页 | 9.50 MB | 2 年前
3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

1 基本符号 2. 矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3. 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4. 矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 ## 线性代数复习和参考 ### 1. 基础概念和符号这是两个方程和两个变量，正如你从高中代数中所知，你可以找到 $ x_{1} $ 和 $ x_{2} $ 的唯一解（除非方程以某种方式退化，例如，如果第二个方程只是第一个的倍数，但在上面的情况下，实际上只有一个唯一解）。在矩阵表示法中，我们可以更紧凑地表达： $$ Ax=b $$ $$ with A=\begin{bmatrix}4&-5\\ -2&3\end{bmatrix},b=\begin{bmatrix}-13\\

0 码力 | 19 页 | 1.66 MB | 2 年前
3
深度学习与PyTorch入门实战 - 13. Tensor统计

0 码力 | 11 页 | 1.28 MB | 2 年前
3
PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林

ARM 架构的服务平台，如何整合 Python + AI 的相关软件并使其在该平台上发挥最高的性能成为了工程师们关注的焦点。 - 矩阵乘法是深度学习计算的重要组成部分，我们利用 ARM 架构新提供的矩阵扩展对 bf16 类型的矩阵乘法计算进行优化，该优化将纯矩阵乘法的运算速度提升 3 倍以上，对深度学习推理任务性能提升明显。目前，该成果已经被集成进 OpenBLAS 和 PyTorch 中。 ## 深度学习 • 广泛使用的深度学习框架 • TensorFlow、PyTorch • 结合硬件（ARM 服务端芯片） • 倚天 710 • AWS graviton • 矩阵乘法 • 为什么矩阵乘法是深度学习的核心 • Conv、Linear、Transformers ![Image](/uploads/documents/7/e/7/0/7e7069c0246e16402e9a8fd670f8e842/p3_1 [Image](/uploads/documents/7/e/7/0/7e7069c0246e16402e9a8fd670f8e842/p7_4.jpg) ## GEMM ## • 优化 GEMM • 内存布局：矩阵分块；重排 • 向量化指令：AVX、NEON C ![Image](/uploads/documents/7/e/7/0/7e7069c0246e16402e9a8fd670f8e842/p8_1

0 码力 | 24 页 | 4.00 MB | 2 年前
3
机器学习课程-温州大学-线性代数回顾

机器学习-线性代数回顾黄海广副教授 2021年07月 ## 目录 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 1. 行列式 ### 1. 行列式按行（列）展开定理 2\cdots,n) $ 是A的n个特征值，则 $ |A|=\prod_{i=1}^{n}\lambda_{i} $ ### 2. 矩阵 01 行列式 02 矩阵 03 向量 04 线性方程组 05 矩阵的特征值和特征向量 06 二次型 ### 2. 矩阵矩阵 $ m \times n $ 个数 $ a_{ij} $ 排成m行n列的表格 $ \left[\begin{array}{cccc} \end{array}\right] $ 称为矩阵，简记为A，或者 $ \left(a_{ij}\right)_{m\times n} $ 。若m=n，则称A是n阶矩阵或n阶方阵。 ### 2. 矩阵 ## 矩阵的线性运算 ### 1. 矩阵的加法设 $ A=(a_{ij}),B=(b_{ij}) $ 是两个 $ m\times n $ 矩阵，则 $ m\times n $ 矩阵 $ C=(c_{ij})=a_{ij}+b_{ij}

0 码力 | 39 页 | 856.89 KB | 2 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

基础特点 | 从推荐模型的基础特点看特征 | 袁镜腾讯 ## I nfoQ 企业会员 ## 企业数字化传播一站式服务 InfoQ 企业会员是为满足企业在中国开发者群体中的品牌曝光需求而推出的一款矩阵化资源包。可为企业提供包括“企业号服务”、“企业动态宣发”、“品牌展示通道”在内的多项专属权益与服务，助力企业高效触达开发者群体，提升数字化时代影响力。 ![Image](/uploads/doc 万中高端开发者 ![Image](/uploads/documents/7/4/3/d/743d3e9d4f868ca103d724198ede00ef/p2_3.jpg) 企业动态宣发新媒体矩阵覆盖百万粉丝 ![Image](/uploads/documents/7/4/3/d/743d3e9d4f868ca103d724198ede00ef/p2_4.jpg) 品牌展示通道线上平台 e00ef/p3_1.jpg) ## ☐ 袁镱博士，专家工程师 ☐ 研究方向：机器学习系统，云计算，大数据系统 ☐ 负责腾讯平台与内容事业群（PCG）技术中台核心引擎：无量系统。支持大规模稀疏模型训练，上线与推理 ## ☐ 无量系统 ☐ 项目于17年启动，先后经过了6个主要版本的迭代 ☐ 覆盖腾讯PCG全部业务的推荐场景，支持腾讯IEG，CSIG，QQ音乐，阅文等业务的部分推荐场景

0 码力 | 22 页 | 6.76 MB | 2 年前
3
【PyTorch深度学习-龙龙老师】-测试版202112

神经网络本质上由大量的矩阵相乘、矩阵相加等基本数学运算构成，TensorFlow 的重要功能就是利用 GPU 方便地实现并行计算加速功能。为了演示 GPU 的加速效果，我们通过完成多次矩阵 A 和矩阵 B 的矩阵相乘运算，并测量其平均运算时间来比对。其中矩阵 A 的 shape 为 $ [1, n] $ ，矩阵 B 的 shape 为 $ [n, 1] $ ，通过调节 n 即可控制矩阵的大小。首先分别创建使用首先分别创建使用 CPU 和 GPU 环境运算的 2 个矩阵，代码如下： # 创建在 CPU 上运算的 2 个矩阵 cpu_a = torch.randn([1, n]) cpu_b = torch.randn([n, 1]) print(n, cpu_a.device, cpu_b.device) # 创建使用 GPU 运算的 2 个矩阵 gpu_a = torch.randn([1, n]).cuda() time:', cpu_time, gpu_time) 将不同大小n下的 CPU 和 GPU 环境的运算时间绘制为曲线，如图 1.21 所示。可以看到，在矩阵A和矩阵B较小时，CPU 和 GPU 时间非常接近，并不能体现出 GPU 并行计算的优势；在矩阵较大时，CPU 的计算时间明显上升，而 GPU 能充分发挥并行计算优势，运算时间几乎不变。 ![Image](/uploads/documents/

0 码力 | 439 页 | 29.91 MB | 2 年前
3
2020美团技术年货算法篇

$ x_{1} $ 与 $ x_{2} $ ，而模型预估，就是将给定的自变量 $ x_{1} $ 与 $ x_{2} $ 代入公式，求得一个解而已。（当然实际模型输出的结果可能会更加复杂，包括输出矩阵、向量等等，这里只是简单的举例说明。）所以在实际业务场景中，一个模型预估的过程可以分为两个简单的步骤：第一步，特征抽取（找出 $ x_{1} $ 与 $ x_{2} $ ）；第二步，模型预估（执行公式f，获得最终的结果）。 c/4/42c4fbcf187df0f624a5e70022348082/p5_1.jpg) 模型预估很简单，从业务工程的视角来看，无论多复杂，它只是一个计算分数的过程。对于整个运算的优化，无论是矩阵运算，还是底层的 GPU 卡的加速，业界和美团内部都有比较好的实践。美团也提供了高性能的 TF-Serving 服务（参见《基于 TensorFlow Serving 的深度学习在线预估》一文）以及自研的向量构成的矩阵 E，矩阵 E 首先通过线性投影： $$ \mathbf{W}^{Q},\mathbf{W}^{K},\mathbf{W}^{V}\in R^{d\times d} $$ 得到三个矩阵： $$ \mathbf{E}\mathbf{W}^{Q}\mathbf{E}\mathbf{W}^{K}\mathbf{E}\mathbf{W}^{V} $$ 然后将投影后的矩阵输入到 Multi-Head

0 码力 | 317 页 | 16.57 MB | 2 年前
3

共 373 条前往

页

分类

语言

格式

Facebook -- TVM AWS Meetup Talk

GraphBLAS: Building a C++ Matrix API for Graph Algorithms

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra

深度学习与PyTorch入门实战 - 13. Tensor统计

PyConChina2022-杭州-ARM芯片的Python+AI算力优化-朱宏林

机器学习课程-温州大学-线性代数回顾

从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

【PyTorch深度学习-龙龙老师】-测试版202112

2020美团技术年货算法篇

搜索

分类

语言

格式