Facebook -- TVM AWS Meetup Talk0 码力 | 11 页 | 3.08 MB | 1 年前3
GraphBLAS: Building a C++ Matrix API for Graph Algorithms0 码力 | 172 页 | 7.40 MB | 1 年前3
C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型jpg) 本课涵盖:稀疏矩阵、unordered_map、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化 面向人群:图形学、CFD 仿真、深度学习编程人员  第 0 章:稀疏矩阵 ## 稠密数组存储矩阵 #define N (1024*1024) correct\n"); bate::timing("main"); return 0; 第 1 章:稀疏网格 ## 稠密网格计算粒子经过的格点数量 terminate called after throwing an instance of 'std::bad_alloc' what(): count: 193505 main: 0.00721933s 会浪费分块中一部分空间。 然而我们这里是要用他记录粒子经过的点,因此具有一定空间局域性,能够被分块优化。 实际上空间局域性正是稀疏网格能够实现的一大前提,稍后详细讨论。 struct Grid { struct MyHash { std::size_t operator()(std::tuple0 码力 | 102 页 | 9.50 MB | 2 年前3
Julia 中文文档Task(协程) ..... 94 11 变量作用域 ..... 95 作用域结构 ..... 95 11.1 全局作用域 ..... 96 11.2 局部作用域 ..... 96 let 块 ..... 102 Loops and Comprehensions ..... 104 11.3 常量 ..... 104 12 类型 ..... 107 12.1 类型声明 .. 68 交互式组件 865 69 LibGit2 871 Functionality 871 70 动态链接器 909 71 线性代数 913 71.1 特殊矩阵 915 Elementary operations 915 Matrix factorizations 916 The uniform scaling operator 916 71 共享数组 ..... 1097 84 套接字 ..... 1099 85 稀疏数组 ..... 1105 85.1 压缩稀疏列 (CSC) 稀疏矩阵存储 ..... 1105 85.2 稀疏向量储存 ..... 1106 85.3 稀疏向量与矩阵构造函数 ..... 1106 85.4 稀疏矩阵的操作 ..... 1107 85.5 Correspondence of dense0 码力 | 1238 页 | 4.59 MB | 2 年前3
【PyTorch深度学习-龙龙老师】-测试版202112012 年,Alex Krizhevsky 提出了 8 层的深层神经网络 AlexNet,它采用了 ReLU 激活函数,并使用 Dropout 技术来防止过拟合,同时抛弃了逐层预训练的方式,直接在两块 NVIDIA GTX580 GPU 上训练网络。AlexNet 在 ILSVRC-2012 图片识别比赛中获得了第一名的成绩,比第二名在 Top-5 错误率上降低了惊人的 10.9%。 自 AlexNet 11 数据集大小趋势 #### 1.3.2 计算力 计算能力的提升是第三次人工智能复兴的一个重要因素。实际上,现代深度学习的基础理论在 1980 年代就已经被提出,但直到 2012 年,基于两块 GTX580 GPU 训练的 AlexNet 发布后,深度学习的真正潜力才得以发挥。传统的机器学习算法并不像神经网络这样对数据量和计算能力有严苛的要求,通常在 CPU 上串行训练即可得到满意结果。但 神经网络均使用 NVIDIA GPU 和 Google TPU 等并行加速芯片训练模型参数。如围棋程序 AlphaGo Zero 在 64 块 GPU 上从零开始训练了 40 天才得以超越所有的 AlphaGo 历史版本;自动网络结构搜索算法使用了 800 块 GPU 同时训练才能优化出较好的网络结构。 目前普通消费者能够使用的深度学习加速硬件设备主要来自 NVIDIA 的 GPU 显卡,图 10 码力 | 439 页 | 29.91 MB | 2 年前3
2022年美团技术年货 合辑画。 - 超高维稀疏性:特征高维稀疏,数据规模庞大,包含了7亿个用户、20亿次浏览记录。 基于多层级多因子的模型融合方案:针对本次赛题的挑战,我们队采用了基于多层级多因子的模型融合方案来进行建模。一方面对于异构站点行为,单一模型不易于全面刻画,另一方面,亿级别的数据规模给多模型的分别优化带来了较大的空间。由于FFM具有强大的特征交叉能力以及较强的泛化能力,能更好地处理高维稀疏特征。因此,我们选 交叉特征如用户商品点击率等往往有较强的业务意义,让模型直接感知组合好的特征往往比自动学习特征间的关系更为简单;第三方面对于许多高维度稀疏 ID 特征,如亿级别以上的推荐或广告场景中,DeepFM、DeepFFM 对于这些特征的学习很难充分,自动化特征工程能给这些稀疏 ID 构造很强的特征表示。 ### 3.3 自动化模型优化 技术的探索 $ ^{[1]} $ 。早期的图嵌入算法多以启发式的矩阵分解、概率图模型为主;随后出现了以DeepWalk $ ^{[2]} $ 和Node2vec $ ^{[3]} $ 为代表的、较为“浅层”的神经网络模型;最后,以GCN $ ^{[4]} $ 为代表0 码力 | 1356 页 | 45.90 MB | 2 年前3
机器学习课程-温州大学-02-数学基础回顾-1.CS229-LinearAlgebra1 基本符号 2. 矩阵乘法 2.1 向量-向量乘法 2.2 矩阵-向量乘法 2.3 矩阵-矩阵乘法 3. 运算和属性 3.1 单位矩阵和对角矩阵 3.2 转置 3.3 对称矩阵 3.4 矩阵的迹 3.5 范数 3.6 线性相关性和秩 3.7 方阵的逆 3.8 正交阵 3.9 矩阵的值域和零空间 3.10 行列式 3.11 二次型和半正定矩阵 3.12 特征值和特征向量 3.13 对称矩阵的特征值和特征向量 4. 矩阵微积分 4.1 梯度 4.2 黑塞矩阵 4.3 二次函数和线性函数的梯度和黑塞矩阵 4.4 最小二乘法 4.5 行列式的梯度 4.6 特征值优化 ## 线性代数复习和参考 ### 1. 基础概念和符号 这是两个方程和两个变量,正如你从高中代数中所知,你可以找到 $ x_{1} $ 和 $ x_{2} $ 的唯一解(除非方程以某种方式退化,例如,如果第二个方程只是第一个的倍数,但在上面的情况下,实际上只有一个唯一解)。在矩阵表示法中,我们可以更紧凑地表达: $$ Ax=b $$ $$ with A=\begin{bmatrix}4&-5\\ -2&3\end{bmatrix},b=\begin{bmatrix}-13\\0 码力 | 19 页 | 1.66 MB | 2 年前3
动手学深度学习 v2.03.1 标量 50 2.3.2 向量 51 2.3.3 矩阵 52 2.3.4 张量 54 2.3.5 张量算法的基本性质 54 2.3.6 降维 56 2.3.7 点积(Dot Product) 58 2.3.8 矩阵-向量积 ..... 59 2.3.9 矩阵-矩阵乘法 ..... 59 2.3.10 范数 ..... 60 2.3 10.7 模型选择 ..... 187 4.10.8 提交 Kaggle 预测 ..... 188 深度学习计算 ..... 191 5.1 层和块 ..... 191 5.1.1 自定义块 ..... 193 5.1.2 顺序块 ..... 194 5.1.3 在前向传播函数中执行代码 ..... 195 5.1.4 效率 ..... 197 5.2 参数管理 ..... 7.1.4 训练AlexNet ..... 254 7.2 使用块的网络 (VGG) ..... 255 7.2.1 VGG块 ..... 255 7.2.2 VGG网络 ..... 256 7.2.3 训练模型 ..... 258 7.3 网络中的网络 (NiN) ..... 259 7.3.1 NiN块 ..... 259 7.3.2 NiN模型 ..... 2610 码力 | 797 页 | 29.45 MB | 2 年前3
C++高性能并行编程与优化 - 课件 - 07 深入浅出访存优化## 内存信息查看工具:dmidecode - 可以看到小彭老师电脑上插了 2 块内存,频率都是 2667 MHz,数据的宽度是 64 位(8 字节)。 - 理论极限带宽 = 频率 * 宽度 * 数量 2667*16*2=42672 MB/s - 那么,频率相同的情况下,可以考虑插两块 8GB 的内存,比插一块 16GB 的内存更快,不过价格可能还是翻倍的。 - 系统会自动在两者之间均匀分 SIMD 矢量化的话可能还是要 SOA 或 AOSOA,比如 hw04 那种的。而“pos 和 vel 应该用 SOA 分开存”是没问题的。 - 而且 SOA 在遇到存储不是 vector,而是稀疏的哈希网格之类索引有一定开销的数据结构,可能就不适合了。这就是为什么王鑫磊最喜欢 AOSOA:在高层保持 AOS 的统一索引,底层又享受 SOA 带来的矢量化和缓存行预取等好处……就是随机索引比较麻烦。 ; } } BENCHMARK(BM_random); ## 解决:按 64 字节分块地随机访问 - 解决方法就是,把数据按 64 字节大小分块。随机访问时,只随机块的位置,而块的内部仍然按顺序访问。 |Benchmark|Time|CPU|Iterations| |---|---|---|---| |BM\_ordered|31636481 ns|316004480 码力 | 147 页 | 18.88 MB | 2 年前3
Keras: 基于 Python 的深度学习库metrics=['accuracy', mean_pred]) #### 3.1.4 训练 Keras 模型在输入数据和标签的 Numpy 矩阵上进行训练。为了训练一个模型,你通常会使用 fit 函数。文档详见此处。 # 对于具有 2 个类的单输入模型(二进制分类): 快速开始 model = Sequential() model.add(Dense(32 由于这个问题是对称的,编码第一条推文的机制应该被完全重用来编码第二条推文。这里我们使用一个共享的 LSTM 层来编码推文。 让我们使用函数式 API 来构建它。首先我们将一条推特转换为一个尺寸为(140,256)的矩阵,即每条推特 140 字符,每个字符为 256 维的 one-hot 编码(取 256 个常用字符)。 import keras from keras.layers import Input, LSTM Input(shape=(140, 256)) tweet_b = Input(shape=(140, 256)) 要在不同的输入上共享同一个层,只需实例化该层一次,然后根据需要传入你想要的输入即可: # 这一层可以输入一个矩阵,并返回一个 64 维的向量 shared_lstm = LSTM(64) # 当我们重用相同的图层实例多次,图层的权重也会被重用(它其实就是同一层) encoded_a = shared_lstm(tweet_a)0 码力 | 257 页 | 1.19 MB | 2 年前3
共 767 条
- 1
- 2
- 3
- 4
- 5
- 6
- 77













