2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰
2 • Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录 部署与监控管理 一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存,廉价存储: 单机配置: Memory128G CPU核数24 SATA20T,RAID5 万兆网卡 一切以用户价值为依归 5 部署与监控管理 1 生产环境部署方案: Distributed Shard03 Load Balancing 一切以用户价值为依归 6 部署与监控管理 1 线性平滑扩容: 扩容: 1.安装新部署新的shard分片机器 2.新shard上创建表结构 3.批量修改当前集群的配置文件增加新的分片 4.名字服务添加节点 一切以用户价值为依归 7 部署与监控管理 1 大批量,少批次 WriteModel BatchSize RowLengt h 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时: 一切以用户价值为依归0 码力 | 26 页 | 3.58 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口 请求管理/流量控制 查询缓存 查询分发器 查询处理器 ClickHouse 监控管理平台 元数据管理 库表管理 权限管理 埋点分析 报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理: Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni: Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互 交互式分析查询:Superset提供即时查询能⼒ v 离线写⼊服务 (Rider) v 实时写⼊服务 (BSQL/Saber) ClickHouse 监控管理平 台 BSQL/Saber 实时写入服务 Rider 离线写入服务 平台服务 Berserker 数据源管理 交互式 分析查询 Yuuni服务 用户 内核 Map隐式列 v 原⽣Map使⽤Array of Tuple实现 v 原⽣Map查询时需读取⼤量⽆效数据0 码力 | 26 页 | 2.15 MB | 1 年前36. ClickHouse在众安的实践
元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 追溯与可重现 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储,0 码力 | 28 页 | 4.00 MB | 1 年前32. ClickHouse MergeTree原理解析-朱凯
下属公司 14 年+ 14 上市 千+ 大 家 用优质的产品和服务 推动企业管理和社会进步 产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台 l …… l 智慧组织 l 智慧城市 l 珠海特区报 三峡电能 秦山核电 香港医思医疗 国家能源集团 安徽皖能 南方电网 金川集团 金晶集团 中航集团 比亚迪股份 互联数据资源、为组织数字资产管理运营、数据探索、分析赋能! 数据汇聚 专业的数据资源管理 自助分析 价值挖掘 多维探索 灵活 快速 自助 洞察 预警 消息 交互 Agenda. 数据分区 01 / 一级索引&二级索引 02 / 数据存储 030 码力 | 35 页 | 13.25 MB | 1 年前3蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎
不断的研究,实践; 全球敏捷运维峰会 广州站 ClickHouse 的特点 优点: 1. 数据压缩比高,存储成本相对非常低; 2. 支持常用的SQL语法,写入速度非常快,适用于大量的数据更新; 3. 依赖稀疏索引,列式存储,cpu/内存的充分利用造就了优秀的计算能力, 并且不用考虑左侧原则; 缺点: 1. 不支持事务,没有真正的update/delete; 2. 不支持高并发,可以根据实际情况修改qps相关配置文件;0 码力 | 15 页 | 1.33 MB | 1 年前32. Clickhouse玩转每天千亿数据-趣头条
lower从leader同步文件时超时 问题二:zookeeper压力太大,clickhouse表处于”read only mode”,插入失败 分析: clickhouse对zookeeper的依赖还是很重的,有大量的数据需要写到zookeeper上面,数据Part都在 zookeeper上面有个节点与之对应以及表的元数据信息等等. 解决: 1:zookeeper机器的snapshot文件和0 码力 | 14 页 | 1.10 MB | 1 年前34. ClickHouse在苏宁用户画像场景的实践
ES的DSL诧法对用户丌太友好,用户学习成 本高。 Kafka Flink 18 ClickHouse替换ES存储标签数据 ClickHouse Manager负责ClickHouse集群管理、元数据管理以及节点负载协调 tag-generate负责标签数据构建,保存到HDFS(MySQL中存储标签配置信息) tag-loader向ClickHouse发送从HDFS导入标签数据的sql0 码力 | 32 页 | 1.47 MB | 1 年前3
共 7 条
- 1