6. ClickHouse在众安的实践集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 5,导入速率=140mb/s 4进程: 每分钟8000w条记录,每个client占核数=1,server占用核约2-5,导入速率=280mb/s 22 ClickHouse 百亿数据性能测试与优化 • 数据查询 4.48 5.56 4.71 8.64 18.6 250.57 场景 1 场景 2 场景 3 场景 4 场景 5 时间 s 时间(冷数据)s 一些典型查询的性能 测试 Peak memory 5.567s 215.26 million, 16.86GB 38.67millon/s, 3.03GB/s 2.46GiB 26 ClickHouse 百亿数据性能测试与优化 • 场景5涉及到全表百亿行数据,第一次执行与后续执行花费时间差距较大 • 第一次执行,数据在硬盘上 花费~250s,性能瓶颈在硬盘io (iostat util 100%) • 第二次执行,大部分数据已经在内存里0 码力 | 28 页 | 4.00 MB | 1 年前3
ClickHouse在B站海量数据场景的落地实践write-write冲突依靠table level lock控制 v write-merge冲突: Unique Engine v 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度: 日志 日志 v Elastic To ClickHouse迁移,降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持 日志 v ClickHouse较ES写⼊吞吐量提升近10倍0 码力 | 26 页 | 2.15 MB | 1 年前3
8. Continue to use ClickHouse as TSDBchoose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 ,速度等指标,优化路线和 驾驶方式 ► 上述业务数据特点: ► (1) 数据多 ► (2) 旧数据趋于不变 ► (3) 新数据更有价值 ► (4) 数据总是随时间变化而不断变化 Why we choose0 码力 | 42 页 | 911.10 KB | 1 年前3
4. ClickHouse在苏宁用户画像场景的实践但是如果使用上述的数据结构存储单独一个较大数值的数字id,会造成空间上的浪费,例如 仅存储40亿一个数值也需要477m的空间。也就是说稀疏的Bitmap和稠密的占用空间相 同。通常会使用一种bitmap压缩算法迚行优化。 RoaringBitmap是一种已被业界广泛使用的高效的bitmap压缩算法,使用者包括Spark、 Hive、ElasticSearch、Kylin、Druid、InfluxDB等,0 码力 | 32 页 | 1.47 MB | 1 年前3
共 4 条
- 1













