基数估计 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Cardinality and frequency estimation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

0 码力 | 69 页 | 630.01 KB | 2 年前
3
4. ClickHouse在苏宁用户画像场景的实践

苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 ## 3 ## 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count distinct） ## 精确去重计数性能测试 4亿多的数据集上，去重计算出6千万整形数值，非精确去重函数：unique、uniqueHLL12、uniqueCombined GB (59.09 million rows/s., 472.72 MB/s.) ## ClickHouse在苏宁使用场景 ## OLAP平台存储引擎 -- 存储时序数据、cube加速数据，应用于高基数查询、精确去重场景。 ## 运维监控 -- 实时聚合分析监控数据，主要使用物化视图技术。 ## ➢ 用户画像场景 -- 标签数据的存储、用户画像查询引擎。苏宁如何使用ClickHouse

0 码力 | 32 页 | 1.47 MB | 2 年前
3
Lecture 3: Logistic Regression

0 码力 | 29 页 | 660.51 KB | 2 年前
3
Lecture 2: Linear Regression

0 码力 | 31 页 | 608.38 KB | 2 年前
3
Blender v4.1 参考手册

5f13e971251e/484dd1cd.png) ## 运行的任务显示当前运行的任务（比如"渲染"或"烘焙"）的进度。将鼠标指针悬停在进度条上会显示一个时间估计。任务可以通过点击取消按钮（x图标）中止。报告信息信息性消息或警告，例如在保存文件之后。它们会在短时间内消失。点击它们可以在信息编辑器中显示完整的信息。 ## 资源信息状态栏的右侧显示有活动物体显示当前所选活动物体的名称。几何数据根据模式和物体类型显示有关当前场景的信息。可以是顶点、面、三角形、或骨骼的数量。物体所选物体的数量和总数。系统内存 Blender内存消耗估计值。在单实例单机器的情况下，这个估计值提供了一个针对机器硬件限制的测量。 Blender 版本当前运行的Blender版本。 - View Source - View Translation - 报告本页面的问题 that's closest to the viewport's viewing direction (when not hovering over a surface). 基础（基数）原点如何定义基底。边： The base is defined from one corner to the opposing corner. 中心： The base is defined

0 码力 | 6411 页 | 312.46 MB | 2 年前
3
Blender v4.0 参考手册(简体中文版)

e264b63e04340553/82366e44.png) ## 运行的任务显示当前运行的任务（比如"渲染”或"烘焙"）的进度。将鼠标指针悬停在进度条上会显示一个时间估计。任务可以通过点击取消按钮（x图标）中止。报告信息信息性消息或警告，例如在保存文件之后。它们会在短时间内消失。点击它们可以在信息编辑器中显示完整的信息。 ## 资源信息状态栏的右侧显示有关 ## 几何数据根据模式和物体类型显示有关当前场景的信息。可以是顶点、面、三角形、或骨骼的数量。 ## 物体所选物体的数量和总数。 ## 系统内存 Blender内存消耗估计值。在单实例单机器的情况下，这个估计值提供了一个针对机器硬件限制的测量。 ## Blender 版本当前运行的Blender版本。 ## 区域 ![OCR图片](/uploads/documents/1/d/ that's closest to the viewport's viewing direction (when not hovering over a surface). 基础（基数）原点 How the base is defined. 边： The base is defined from one corner to the opposing corner. 中心：

0 码力 | 5352 页 | 306.21 MB | 2 年前
3
Blender v3.5 参考手册(简体中文版)

状态栏的中间显示有关正在进行的操作的信息。 Sequence Render 94% ## 运行的任务显示当前运行的任务（比如"渲染"或"烘焙"）的进度。将鼠标指针悬停在进度条上会显示一个时间估计。任务可以通过点击取消按钮（x图标）中止。 ## 报告信息信息性消息或警告，例如在保存文件之后。它们会在短时间内消失。点击它们可以在信息编辑器中显示完整的信息。 ## 资源信息状态栏的右侧几何数据（Geometry）根据模式和物体类型显示有关当前场景的信息。可以是顶点、面、三角形、或骨骼的数量。物体所选物体的数量和总数。 ## 系统内存 Blender内存消耗估计值。在单实例单机器的情况下，这个估计值提供了一个针对机器硬件限制的测量。 ## Blender 版本当前运行的Blender版本。 ## 区域 Blender窗口被划分为若干矩形，称为区域。区域为编辑器保留屏 that's closest to the viewport's viewing direction (when not hovering over a surface). ## 基础（基数） ## 原点 How the base is defined. 边： The base is defined from one corner to the opposing corner. 中心：

0 码力 | 4816 页 | 302.58 MB | 2 年前
3
Hello 算法 1.2.0 简体中文 C语言版

11.2 选择排序 11.3 冒泡排序 11.4 插入排序 11.5 快速排序 11.6 归并排序 11.7 堆排序 11.8 桶排序 11.9 计数排序 11.10 基数排序 11.11 小结第12章分治 12.1 分治算法 12.2 分治搜索策略 12.3 构建二叉树问题 12.4 汉诺塔问题 12.5 小结第13章性能不错，看上去并没有什么问题。但如果学过算法，我们就会知道内置排序函数的时间复杂度是 $ O(n\log n) $ ；而如果给定的数据是固定位数的整数（例如学号），那么我们就可以用效率更高的“基数排序”来做，将时间复杂度降为 $ O(nk) $ ，其中k为位数。当数据体量很大时，节省出来的运行时间就能创造较大价值（成本降低、体验变好等）。在工程领域中，大量问题是难以达到最优解的，许多问题于不同场景。在做算法题时，我们会倾向于选择基于数组实现的栈，因为它提供了更高的操作效率和随机访问的能力，代价仅是需要预先为数组分配一定的内存空间。如果数据量非常大、动态性很高、栈的预期大小难以估计，那么基于链表实现的栈更加合适。链表能够将大量数据分散存储于内存的不同部分，并且避免了数组扩容产生的额外开销。 ### 4.5 小结 ### 1. 重点回顾 - 数组和链表是两种基本的数据结构

0 码力 | 392 页 | 18.52 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 Rust 版

11.2 选择排序 11.3 冒泡排序 11.4 插入排序 11.5 快速排序 11.6 归并排序 11.7 堆排序 11.8 桶排序 11.9 计数排序 11.10 基数排序 11.11 小结第12章分治 12.1 分治算法 12.2 分治搜索策略 12.3 构建二叉树问题 12.4 汉诺塔问题 12.5 小结第13章不错，看上去并没有什么问题。但如果学过算法，我们就会知道内置排序函数的时间复杂度是 $ O(n \log n) $ ；而如果给定的数据是固定位数的整数（例如学号），那么我们就可以用效率更高的“基数排序”来做，将时间复杂度降为 $ O(nk) $ ，其中 k 为位数。当数据体量很大时，节省出来的运行时间就能创造较大价值（成本降低、体验变好等）。在工程领域中，大量问题是难以达到最优解的，许于不同场景。在做算法题时，我们会倾向于选择基于数组实现的栈，因为它提供了更高的操作效率和随机访问的能力，代价仅是需要预先为数组分配一定的内存空间。如果数据量非常大、动态性很高、栈的预期大小难以估计，那么基于链表实现的栈更加合适。链表能够将大量数据分散存储于内存的不同部分，并且避免了数组扩容产生的额外开销。 ### 4.5 小结 ### 1. 重点回顾 - 数组和链表是两种基本的数据结构

0 码力 | 387 页 | 18.51 MB | 1 年前
3
Hello 算法 1.2.0 简体中文 Java 版

11.2 选择排序 11.3 冒泡排序 11.4 插入排序 11.5 快速排序 11.6 归并排序 11.7 堆排序 11.8 桶排序 11.9 计数排序 11.10 基数排序 11.11 小结第12章分治 12.1 分治算法 12.2 分治搜索策略 12.3 构建二叉树问题 12.4 汉诺塔问题 12.5 小结第13章不错，看上去并没有什么问题。但如果学过算法，我们就会知道内置排序函数的时间复杂度是 $ O(n \log n) $ ；而如果给定的数据是固定位数的整数（例如学号），那么我们就可以用效率更高的“基数排序”来做，将时间复杂度降为 $ O(nk) $ ，其中 k 为位数。当数据体量很大时，节省出来的运行时间就能创造较大价值（成本降低、体验变好等）。在工程领域中，大量问题是难以达到最优解的，许于不同场景。在做算法题时，我们会倾向于选择基于数组实现的栈，因为它提供了更高的操作效率和随机访问的能力，代价仅是需要预先为数组分配一定的内存空间。如果数据量非常大、动态性很高、栈的预期大小难以估计，那么基于链表实现的栈更加合适。链表能够将大量数据分散存储于内存的不同部分，并且避免了数组扩容产生的额外开销。 ### 4.5 小结 ### 1. 重点回顾 - 数组和链表是两种基本的数据结构

0 码力 | 379 页 | 18.48 MB | 1 年前
3

共 360 条前往

页

分类

语言

格式

Cardinality and frequency estimation - CS 591 K1: Data Stream Processing and Analytics Spring 2020

4. ClickHouse在苏宁用户画像场景的实践

Lecture 3: Logistic Regression

Lecture 2: Linear Regression

Blender v4.1 参考手册

Blender v4.0 参考手册(简体中文版)

Blender v3.5 参考手册(简体中文版)

Hello 算法 1.2.0 简体中文 C语言版

Hello 算法 1.2.0 简体中文 Rust 版

Hello 算法 1.2.0 简体中文 Java 版

搜索

分类

语言

格式