4. ClickHouse在苏宁用户画像场景的实践
高频查询的画像数据通过后台任务保存到加 速层:Hbase 戒者 Redis 实时标签通过Flink计算,然后写入Redis 用户画像平台可以从ES、Hbase、Redis查 询数据 痛点: 标签导入到ES的时间过长,需要等待各种业 务数据准备就绪,才能迚行关联查询。 新增戒者修改标签,丌能实时迚行,涉及到 ES文档结构的变化。 ES对资源消耗比较大,属亍豪华型配置。 群管理、元数据管理以及节点负载协调 tag-generate负责标签数据构建,保存到HDFS(MySQL中存储标签配置信息) tag-loader向ClickHouse发送从HDFS导入标签数据的sql to-ch-sql模块,将用户画像查询条件转换为ClickHouse sql诧句 用户画像平台通过Proxy从ClickHouse集群查询标签数据 Spark ch_label_date_20191011 ch_label_dist_int ch_label_dist_double ch_label_dist_date 查询 分布式表 标签数据表 HDFS 导入 HDFS上采用snappy.parquet格式存储数据。 采用AB表切换方式,避免查询和写入的冲突,标签数据表以日期结尾命名。 通过重建分布式表迚行AB表切换,指向丌同日期的标签数据表。0 码力 | 32 页 | 1.47 MB | 1 年前36. ClickHouse在众安的实践
支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表 易观开源OLAP引擎测评报告 洞察数据模型+Clickhouse 使用效果 内存: 96GB • 硬盘: 1TB 高效云盘,最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据 遇到的问题 导入效率: • 原有导入数据方式在百亿级数据下会报Too many partitions for single INSERT block的问题 • 数据导入慢 原因: • ck-loader-mr方式对大数据量场景支持不够友好 • 单次插入分区过多 解决方法: 解决方法: 使用clickhouse原生insert format csv 配合linux pipline导入 hadoop fs -cat 'hdfs://hadoop-namenode:port/user/hive/user/2013/000000_0' | clickhouse-client --host=127.0.0.1 -- port=10000 -u user --password0 码力 | 28 页 | 4.00 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表,将最新的数据从Hive通过ETL导入 到A_temp表; 2. 将A rename 成A_temp_temp; 3. 将A_temp rename成 A; 4. 将A_ temp_temp rename成 以上信息可以简单对比SQL执行效果 全球敏捷运维峰会 广州站 采用ClickHouse后平台的查询性能 全球敏捷运维峰会 广州站 ClickHouse应用小结 • 数据导入之前要评估好分区字段; • 数据导入时根据分区做好Order By; • 左右表join的时候要注意数据量的变化; • 是否采用分布式; • 监控好服务器的cpu/内存波动/`system`.query_log;0 码力 | 15 页 | 1.33 MB | 1 年前33. 数仓ClickHouse多维分析应用实践-朱元
基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据 仓库 Oracle数据平台 • 通过kettle每天 定时导出文件至 本地 Etl服务器 • 通过clickhouse- client将文本导 入ck数据库 clickhouse数据库 数 仓 建 设 01 ck数仓数据模型采用星型模型搭建0 码力 | 14 页 | 3.03 MB | 1 年前32. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
Executor-3 一切以用户价值为依归 Data Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差 数据导入后结果不支持修改/追加 Ø数据类型有限 数据类型只能支持数字类型 Ø数据量有限 数据量达到10亿级以上查询效率有所降低 Ø单表计算 不能进行多表关联计算 一切以用户价值为依归 210 码力 | 26 页 | 3.58 MB | 1 年前3
共 5 条
- 1