4. ClickHouse在苏宁用户画像场景的实践
可以通过groupBitmapState创建。 13 注:ClickHouse聚合函数有一些函数后缀可以使用: -State:获取聚合的中间计算结果 -Merge:将中间计算结果迚行合幵计算,返回最终结果 -MergeState:将中间计算结果迚行合幵计算,返回合幵后的中间结果 ClickHouse集成RoaringBitmap Bitmap的运算函数集: 构造Bitmap类型 Bitmap自身戒者之间的位运算 • 流失用户:day1 ANDNOT day2 = [1,2] 16 detail_order 聚合为天维度表 留存用户的SQL Bitmap函数 千万级用户, 秒级出结果! Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 17 用户画像原有的流程及痛点 Hive表 商品数据 用户画像系统常见应用场景 22 丼个栗子: “双11” 就要到了,需要发放10万张家电类优惠券迚行促销: 预估人数 人群画像 用户ID清单 用户画像场景1—预估人数 输入条件 返回结果 场景描述 场景:限量发放10万张家电类优惠券,先预估出符合条件的用户数。 操作:用户指定标签及标签间的逡辑关系,统计出符合标签逡辑的人数。 标签表达式,包含标签、算术运算符、逡辑运算符、括号。0 码力 | 32 页 | 1.47 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
… DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高 核心特点 Bitmap Filter Builder Dynamic Bitmap Index Cache Bitmap Index Generator Execute Executor-3 一切以用户价值为依归 Data Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差 数据导入后结果不支持修改/追加 Ø数据类型有限 数据类型只能支持数字类型 Ø数据量有限 数据量达到10亿级以上查询效率有所降低 Ø单表计算 不能进行多表关联计算 一切以用户价值为依归 21 业务应用实践0 码力 | 26 页 | 3.58 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。 路径分析 v 选定中⼼事件。 v 按时间窗⼜确定上下游事件。 v 离线Spark与计算出事件路径及相关⽤户id的RBM。 v 离线计算结果导⼊ClickHouse做交互式路径分析。 漏斗分析 v 预定义事件漏⽃ v ⽀持各个事件单独设置过滤条件 v 查询时间跨度最⼤⼀个⽉ v 数据按user id做Sharding,查询下推0 码力 | 26 页 | 2.15 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
根据SQL关键字筛选该字段 query_duration_ms:执行时间 memory_usage:占用内存 read_rows和read_bytes :读取行数和大小 result_rows和result_bytes :结果行数和 大小 以上信息可以简单对比SQL执行效果 全球敏捷运维峰会 广州站 采用ClickHouse后平台的查询性能 全球敏捷运维峰会 广州站 ClickHouse应用小结 • 数据导入之前要评估好分区字段;0 码力 | 15 页 | 1.33 MB | 1 年前36. ClickHouse在众安的实践
your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能0 码力 | 28 页 | 4.00 MB | 1 年前3
共 5 条
- 1