生命值事件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. Clickhouse玩转每天千亿数据-趣头条

我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2：指标系统分”分时”和”累时”指标 3：指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' 2：设置分区的时候需要思考，数据的特性需要了解我们遇到的问题查询过程中clickhouse-server进程挂掉分析： clickhouse裸奔时max_memory_usage_for_all_queries默认值为0，即不限制clickhouse内存使用解决： clickhouse安装完成以后，在users.xml文件中配置一下max_memory_usage_for_all_queries，控制 cli

0 码力 | 14 页 | 1.10 MB | 1 年前
3
6. ClickHouse在众安的实践

数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理资源调度业务系统开发工具基础设施模型反馈智能应用开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表

0 码力 | 28 页 | 4.00 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø ⽇志&Trace分析 Ø ⽤户⾏为分析（包括事件分析，漏⽃分析，路径分析等） Ø 圈⼈定投 Ø ⼴告DMP（包括统计分析，⼈群预估） Ø 电商交易分析 Ø OGV内容分析 Ø APM (Application Performance Management) 行为数据分析平台主要以下功能模块：事件分析 v 海量埋点事件数据，⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性，均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding，查询下推 Future Work Future Work v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能

0 码力 | 26 页 | 2.15 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

613 50.437 7.038 0 10 20 30 40 50 60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0 最大存储：65536元素最大空间：128KB 稠密数据，固定大小最大存储：65536元素最大空间：8KB RoaringBitmap原理介绍丼个栗子： 40亿（0xEE6B2800）这个值如何存入RoaringBitmap，以存入Array Container来说明： 12 short[] keys 0x0000 0xEE6B 0xFF01 Array Container 场景：限量发放10万张家电类优惠券，先预估出符合条件的用户数。操作：用户指定标签及标签间的逡辑关系，统计出符合标签逡辑的人数。标签表达式，包含标签、算术运算符、逡辑运算符、括号。整形值，表示符合标签表达式的用户人数例如： 23 user_number 100000 用户画像场景1—预估人数—示例画像条件查询SQL 24 用户画像场景2—人群圈选画像

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。分区目录的命名规则 PartitionID_MinBlockNum_MaxBlockNum_Level • PartitionID 分区ID，无需多说，对于分区ID的规则在上一小节中已 MaxBlockNum取值一样，同等于n。 • Level 合并的层级，可以理解为某个分区被合并过的次数。 Level计数与BlockNum有所不同，它并不是全局累加的。对于每一个新创建的分区目录而言，其初始值均为0。之后,以分区为单位，如果相同分区发生合并动作，则在相应分区内计数累积加1。分区目录的合并过程一级索引稀疏索引 primary.idx文件内的一级索引采用稀疏索引实现如果把MergeTree比作是一本书，那么稀

0 码力 | 35 页 | 13.25 MB | 1 年前
3

共 5 条前往

页

Clickhouse 玩转每天千亿数据头条 ClickHouse 众安实践海量场景落地苏宁用户画像 MergeTree 原理解析朱凯

分类

语言

格式

2. Clickhouse玩转每天千亿数据-趣头条

6. ClickHouse在众安的实践

ClickHouse在B站海量数据场景的落地实践

4. ClickHouse在苏宁用户画像场景的实践

2. ClickHouse MergeTree原理解析-朱凯