稀疏数据结构 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

C++高性能并行编程与优化 - 课件 - 10 从稀疏数据结构到量化数据类型

e/p1_3.jpg) 本课涵盖：稀疏矩阵、unordered_map、空间稀疏网格、位运算、浮点的二进制格式、内存带宽优化面向人群：图形学、CFD 仿真、深度学习编程人员 ![Image](/uploads/documents/9/b/e/8/9be89f35442491e3b52b86402e3652be/p1_4.jpg) 第 0 章：稀疏矩阵 ## 稠密数组存储矩阵 #define correct\n"); bate::timing("main"); return 0; 第 1 章：稀疏网格 ## 稠密网格计算粒子经过的格点数量 terminate called after throwing an instance of 'std::bad_alloc' what(): count: 193505 main: 0.00721933s 会浪费分块中一部分空间。然而我们这里是要用他记录粒子经过的点，因此具有一定空间局域性，能够被分块优化。实际上空间局域性正是稀疏网格能够实现的一大前提，稍后详细讨论。 struct Grid { struct MyHash { std::size_t operator()(std::tuple
0 码力 | 102 页 | 9.50 MB | 2 年前
3
Facebook -- TVM AWS Meetup Talk

0 码力 | 11 页 | 3.08 MB | 1 年前
3
MoonBit月兔编程语言现代编程思想第七课命令式编程：命令，可变数据结构，循环

![Image](/uploads/documents/6/9/d/a/69da5498250981292ccdaaa8c183efbf/p9_2.jpg) ## 别名 - 指向相同的可变数据结构的两个标识符可以看作是别名 1. fn alter(a: Ref[Int], b: Ref[Int]) { 2. a.val = 10 3. b.val = 20 4. } 5. : 1 } 8. alter(x, x) 9. println(x.val.to_string() // x.val 的值将会被改变两次 10. } ## 别名 - 指向相同的可变数据结构的两个标识符可以看作是别名 ![Image](/uploads/documents/6/9/d/a/69da5498250981292ccdaaa8c183efbf/p11_2.jpg) - Int View No quick fixes ## 可变数据 • 使用场景广泛 ☐ 直接操作程序外环境，如硬件等 ☐ 一些情况下性能更好，如随机访问数组等 ☐ 可以构建部分复杂数据结构，如图 ☐ 重复利用空间（原地修改） - 可变数据并不总是与引用透明性冲突 1. fn fib_mut(n: Int) -> Int { // 对于相同输入，总是有相同输出 2.

0 码力 | 23 页 | 780.46 KB | 2 年前
3
GraphBLAS: Building a C++ Matrix API for Graph Algorithms

0 码力 | 172 页 | 7.40 MB | 1 年前
3
从推荐模型的基础特点看大规模推荐类深度学习系统的设计袁镱

e00ef/p3_1.jpg) ## ☐ 袁镱博士，专家工程师 ☐ 研究方向：机器学习系统，云计算，大数据系统 ☐ 负责腾讯平台与内容事业群（PCG）技术中台核心引擎：无量系统。支持大规模稀疏模型训练，上线与推理 ## ☐ 无量系统 ☐ 项目于17年启动，先后经过了6个主要版本的迭代 ☐ 覆盖腾讯PCG全部业务的推荐场景，支持腾讯IEG，CSIG，QQ音乐，阅文等业务的部分推荐场景 ede00ef/p6_2.jpg) 百万级稠密交叉参数单个样本命中的key 千亿级稀疏输入层参数一段时间样本命中的 unique key ID/tag/交叉特征 (千，千万) 小特征中型特征 (个) (十) □ Feature 3（机器学习的特点） Embedding以稀疏的方式表达信息 ☐ 2.2 hotkey现象，且训练与推理的hotkey高度重合 e9d4f868ca103d724198ede00ef/p11_3.jpg) ☐ 推荐模型GPU训练的挑战 ☐ 显存（A100最大80GB）放不下TB级的模型 ☐ GPU多线程并行计算能力对稀疏数据不友好 ArchSummit 全球架构师峰会 ☐ Feature 2.1: 短时间内只有部分item和user被命中，只有部分参数被用到 ## ☐ 方案 ☐ 原有：内存能够存储的参数->对应的样本量Group

0 码力 | 22 页 | 6.76 MB | 2 年前
3
2022年美团技术年货合辑

画。 - 超高维稀疏性：特征高维稀疏，数据规模庞大，包含了7亿个用户、20亿次浏览记录。基于多层级多因子的模型融合方案：针对本次赛题的挑战，我们队采用了基于多层级多因子的模型融合方案来进行建模。一方面对于异构站点行为，单一模型不易于全面刻画，另一方面，亿级别的数据规模给多模型的分别优化带来了较大的空间。由于FFM具有强大的特征交叉能力以及较强的泛化能力，能更好地处理高维稀疏特征。因此，我们选交叉特征如用户商品点击率等往往有较强的业务意义，让模型直接感知组合好的特征往往比自动学习特征间的关系更为简单；第三方面对于许多高维度稀疏 ID 特征，如亿级别以上的推荐或广告场景中，DeepFM、DeepFFM 对于这些特征的学习很难充分，自动化特征工程能给这些稀疏 ID 构造很强的特征表示。 ### 3.3 自动化模型优化 ![Image](/uploads/documents/5/b/1/9 tuan.com（邮件标题请注明：广平算法团队）。 # 图神经网络训练框架的实践和探索作者：付浩宪鹏祥洲玉基徐灏梦迪武威 ### 1. 前言万物之间皆有联系。图作为一种通用的数据结构，可以很好地描述实体与实体之间的关系。例如，在社交网络中，用图来表示用户与用户之间的好友关系；在电商网站中，用图表示用户与商品之间的点击购买行为；在知识图谱构建中，还可以用图表示实体与实体间多样的

0 码力 | 1356 页 | 45.90 MB | 2 年前
3
机器学习课程-温州大学-01机器学习-引言

注意：安装路径尽量不使用带有中文或空格的目录，这样在之后的使用过程中减少一些莫名的错误。 ## Python 的主要数据类型 ● 字符串 ●整数与浮点数布尔值 ● 日期时间 ● 其它 ## Python 的数据结构 ## 列表(list) 用来存储一连串元素的容器，列表用[]来表示，其中元素的类型可不相同。 ## ●元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值： 1、一个强大的N维数组对象Array; 2、比较成熟的（广播）函数库； 3、用于整合C/C++和Fortran代码的工具包； 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。 NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。 ## Python模块-Pandas ## ● 基本数据结构 Series 一维数据结构，包含行索引和数据两个部分 DataFrame 二维数据结构，包含带索引的多列数据，各列的数据类型可能不同 ![Image](/uploads/documents/c/7/b/8/c7b85d1805db4

0 码力 | 78 页 | 3.69 MB | 2 年前
3
机器学习课程-温州大学-01深度学习-引言

注意：安装路径尽量不使用带有中文或空格的目录，这样在之后的使用过程中减少一些莫名的错误。 ## Python 的主要数据类型 ● 字符串 ●整数与浮点数布尔值 ● 日期时间 ●其它 ## Python 的数据结构 ## 列表(list) 用来存储一连串元素的容器，列表用[]来表示，其中元素的类型可不相同。 ## ●元组(tuple) 元组类似列表，元组里面的元素也是进行索引计算。列表里面的元素的值： 1、一个强大的N维数组对象Array; 2、比较成熟的（广播）函数库； 3、用于整合C/C++和Fortran代码的工具包； 4、实用的线性代数、傅里叶变换和随机数生成函数。numpy和稀疏矩阵运算包scipy配合使用更加方便。 NumPy（Numeric Python）提供了许多高级的数值编程工具，如：矩阵数据类型、矢量处理，以及精密的运算库。专为进行严格的数字处理而产生。多为很多的函数和方法。你很快就会发现，它是使Python成为强大而高效的数据分析环境的重要因素之一。 ## Python模块-Pandas ## ● 基本数据结构 Series 一维数据结构，包含行索引和数据两个部分 DataFrame 二维数据结构，包含带索引的多列数据，各列的数据类型可能不同 ![Image](/uploads/documents/d/e/c/e/decee038bd08f

0 码力 | 80 页 | 5.38 MB | 2 年前
3
4. ClickHouse在苏宁用户画像场景的实践

可以完成精确去重操作，通过多个 bitmap 的 and、or、xor、andnot 等位操作完成留存分析、漏斗分析、用户画像分析等场景的计算。但是如果使用上述的数据结构存储单独一个较大数值的数字id，会造成空间上的浪费，例如仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相同。通常会使用一种Bitmap压缩算法进行优化。 RoaringBitmap是一种已被业界广泛使用的高效的B sorted for fast random access. 0x0002 bitset container $ (2^{15} $ values $ 稀疏数据，动态分配最大存储：4096元素最大空间：8KB 不仅数据结构设计精巧，而且还有很多高效的Bitmap计算函数。 ![Image](/uploads/documents/a/d/b/f/adbfc7893969949f7

0 码力 | 32 页 | 1.47 MB | 2 年前
3
Julia 中文文档

Errors 453 41.15 Events 461 41.16 Reflection 462 41.17 Internals 465 41.18 Meta 469 42 集合和数据结构 471 42.1 迭代 471 42.2 构造函数和类型 473 42.3 通用集合 474 42.4 可迭代集合 476 42.5 可索引集合 505 42.6 字典 506 共享数组 ..... 1097 84 套接字 ..... 1099 85 稀疏数组 ..... 1105 85.1 压缩稀疏列 (CSC) 稀疏矩阵存储 ..... 1105 85.2 稀疏向量储存 ..... 1106 85.3 稀疏向量与矩阵构造函数 ..... 1106 85.4 稀疏矩阵的操作 ..... 1107 85.5 Correspondence of dense 5.0e-324 两个相邻可表示的浮点数之间的距离并不是常数，数值越小，间距越小，数值越大，间距越大。换句话说，可表示的浮点数在实数轴上的零点附近最稠密，并沿着远离零点的方向以指数型的速度变得越来越稀疏。根据定义， $ \text{eps}(1.0) $ 与 $ \text{eps}(\text{Float64}) $ 相等，因为 1.0 是 64 位浮点值。 Julia 也提供了 nextfloat

0 码力 | 1238 页 | 4.59 MB | 2 年前
3

共 414 条前往

页

搜索

分类

语言

格式