2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
大数据分析PaaS 实时 分析 多维 分析 画像 分析 … DataMore 大数据应用PaaS 实时 决策 任务 系统 … 排 行 榜 大数据应用 SaaS系统 iData 用户画像 DataMore 月光宝盒 DataMore 任务系统 iData 数据可视化 游 谱 游戏说 神秘 商店 iData 多维提取 … 游戏数据 驱动场景 潘多拉 社交与功能 RPC DataNode 基于位图的分布式计算引擎 API Server Scheduler SQL-Parser QueryOptimier Column1 DataNode Column2 Column3 ColumnN Column1 DataNode Column2 Column3 ColumnN bitmap 画像下钻分布式计算引擎 多维 提取 iData大数据分析引擎 iData大数据分析引擎 分布式多维计算引擎 基于位图索引和行式内容存储 分布式画像引擎 基于位图索引和列式内容存储 多维 分析 跟踪 分析 下钻 分析 透视 分析 画像 分析 一切以用户价值为依归 19 业务应用实践 iData 2 旧画像系统 Block 1 Block 2 Block … Storage Scheduler Data Stats Gather0 码力 | 26 页 | 3.58 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
苏宁科技集团.大数据中心.杨兆辉 1 关亍我 苏宁科技集团大数据中心架构师 曾就职亍中兴通讯10+years ,从事大规模分布式系统研发 10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案 ClickHouse Contributor Github: https://github ch_label_dist_date 查询 分布式表 标签数据表 HDFS 导入 HDFS上采用snappy.parquet格式存储数据。 采用AB表切换方式,避免查询和写入的冲突,标签数据表以日期结尾命名。 通过重建分布式表迚行AB表切换,指向丌同日期的标签数据表。 通过增加标签数据表的副本数,提升幵发性能。 21 用户画像系统常见应用场景 22 丼个栗子:0 码力 | 32 页 | 1.47 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
虚拟集群最少两台机器在不同的机房; Ø 数据独立,多写,相互不干扰; Ø 数据读取通过应用程序做负载平衡; Ø 灵活创建不同的虚拟集群用于适当的场合; Ø 随时调整服务器,新增/缩减服务器; 分布式: k8s的集群式部署 全球敏捷运维峰会 广州站 采用ClickHouse后平台的查询性能 system.query_log表,记录已经 执行的查询记录 query:执行的详细SQL,查询相关记录可以 左右表join的时候要注意数据量的变化; • 是否采用分布式; • 监控好服务器的cpu/内存波动/`system`.query_log; • 数据存储磁盘尽量采用ssd; • 减少数据中文本信息的冗余存储; • 特别适用于数据量大,查询频次可控的场景,如数据分析,埋点日志系统; 全球敏捷运维峰会 广州站 StarRocks应用小结 • 发挥分布式的优势,要提前做好分区字段规划; • 支持0 码力 | 15 页 | 1.33 MB | 1 年前38. Continue to use ClickHouse as TSDB
不断的汇总日成交量从 而制定商业规划 Why we choose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 Why we choose it 不断收集CPU、 Memory等系统指标预 测系统未来趋势 不断收集市场变化信 息预测股价涨跌 不断的汇总日成交量从 而制定商业规划 不断收集温度,坐标,方向 引入辅助索引,加快数据检索 速度 低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能,对历史数据做聚合,减少数据量 稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You0 码力 | 42 页 | 911.10 KB | 1 年前36. ClickHouse在众安的实践
5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 数据探索平台 图像分类 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your 个,数据存 储和查询以及分析的压力就会很大,原有系统使用es来保存用户标签 数据。 保单表 用户表 用户行为表 ODPS ES 用户标签表 痛点 • 数据查询慢:每个查询需要5~10分钟; • 数据更新慢:更新数据可能需要数天时间; • 不灵活:用户有新标签需求时,需要提需求给标签开发人员排期开发 需求,开发人员开发完再更新到系统中,这时离需求提出可能已经过 去几天,无法及时给到业务人员反馈。0 码力 | 28 页 | 4.00 MB | 1 年前33. 数仓ClickHouse多维分析应用实践-朱元
每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决:通过在users0 码力 | 14 页 | 3.03 MB | 1 年前32. Clickhouse玩转每天千亿数据-趣头条
(timestamp, eventType) or order by (eventType, timestamp) 业务场景 1:趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2:指标系统分”分时”和”累时”指标 3:指标的一般都是会按照eventType进行区分 select count(1) from table where dt='' and timestamp>='' and0 码力 | 14 页 | 1.10 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
购售电平台 l …… l 智慧组织 l 智慧城市 l 智慧产业 l …… EDT 企业级大数据平台 BAS区块链企业应用服务平台 ECP 企 业 云 平 台 服务(咨询、实施、运维、定制开发、系统集成……) 面向 集团企业 面向 能源行业 面向 社会治理 公司主要客户 海尔集团 东风汽车 中信重工 首创经中 河南省人民医院 宏发股份 国家电网 国家电投集团 华能集团0 码力 | 35 页 | 13.25 MB | 1 年前3
共 8 条
- 1