6. ClickHouse在众安的实践
X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表 易观开源OLAP引擎测评报告0 码力 | 28 页 | 4.00 MB | 1 年前33. 数仓ClickHouse多维分析应用实践-朱元
通过kettle每天 定时导出文件至 本地 Etl服务器 • 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建 02 数 仓 建 设 – 维度表 一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) 数 仓 建 设 – 主题事实清单表 主题事实清单表采用引擎MergeTree0 码力 | 14 页 | 3.03 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
个小的MarkRange,两个相邻 MarkRange相距的步长为1。其中, 所有MarkRange(整个数据片段)的 最大数值区间为[A000 , +inf)。 索引的查询过程 整个索引查询的逻辑,可以大致分为3个步骤: 1. 生成查询条件区间 WHERE ID = 'A003' ['A003', 'A003'] WHERE ID > 'A000' ('A000', +inf) WHERE0 码力 | 35 页 | 13.25 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时: 一切以用户价值为依归 13 部署与监控管理 1 立体监控模型: 监控分层 监控项 敏感度 紧急度 应用层 业务指标,数据异常 低 高 服务层 错误日志 中 中 请求指标 扫描详情 响应耗时 物理层 磁盘IO, 持续负载,流量 高 低 一切以用户价值为依归0 码力 | 26 页 | 3.58 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
用户画像平台 ClickHouse2 ClickHouseN to-ch-sql 19 标签数据表定义 20 String Integer Double Date 数据模型定义 ch_label_dist_string ch_label_string_20191011 ch_label_int_20191011 ch_label_double_201910110 码力 | 32 页 | 1.47 MB | 1 年前3
共 5 条
- 1