2. ClickHouse MergeTree原理解析-朱凯《企业级大数据平台构建:架构与实现》、 《ClickHouse原理解析与开发实战》(连载写作中) 珠海总部园 区占地面积 6 万平方米 珠海、北京、武汉 3 研发中心 36 个 分支机构 4 多名员工 下属公司 14 年+ 14 上市 千+ 大 家 用优质的产品和服务 推动企业管理和社会进步 产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 能源行业 面向 社会治理 公司主要客户 海尔集团 东风汽车 中信重工 首创经中 河南省人民医院 宏发股份 国家电网 国家电投集团 华能集团 大唐集团 华电集团 电建集团 能建集团 华润电力 中广核 内蒙古电力 浙能集团 陕能集团 中石油 中石化 中冶集团 酒钢集团 中国商飞 厦门航空 南京地铁 中煤集团 许继集团 中盐公司 中农发集团 深粮集团 这众多的表引擎中,又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最 为强大,在生产环境绝大部分场景中都应该使用此系列的表引擎。 只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特 性,同时也只有此系列的表引擎支持ALTER相关操作。 合并树家族 其中MergeTree作为家族中最基础的表引擎,提供了主键索引、数据分区、数据副 本和数据采样等所有的基本能力,而家族0 码力 | 35 页 | 13.25 MB | 1 年前3
 6. ClickHouse在众安的实践Clickhouse在众安的应用实践 百亿保险数据实时分析探索 众安保险 数据智能中心 蒙强 2019年10月27日 众安保险 • 成立于2013年,是中国第一家互联网保险公司。 • 互联网保险特点: 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧 全生命周期管理 洞察平台架构 Why Clickhouse? Clickhosue 性能 高效的数据导入和查询性能 开源 低成本,免费 压缩比 高度的数据压缩比,存储成本更小 面向列 真正的面向列存储, 支持高维度表 易观开源OLAP引擎测评报告 洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景 我们希望对保单、用户数据进行灵活分析,根据用户标签筛选出符合0 码力 | 28 页 | 4.00 MB | 1 年前3
 3. 数仓ClickHouse多维分析应用实践-朱元2019-10-20 所遇问题 目录 CONTENTS 现状背景 应用实践 01 数据链路长 现状 即席查询性能差 数据压缩率低 需求响应慢 02 数据架构 数据同步ck 01 1,基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本 因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据 仓库 Oracle数据平台0 码力 | 14 页 | 3.03 MB | 1 年前3
 蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎2. 支持常用的SQL语法,写入速度非常快,适用于大量的数据更新; 3. 依赖稀疏索引,列式存储,cpu/内存的充分利用造就了优秀的计算能力, 并且不用考虑左侧原则; 缺点: 1. 不支持事务,没有真正的update/delete; 2. 不支持高并发,可以根据实际情况修改qps相关配置文件; 全球敏捷运维峰会 广州站 StarRocks的特点 优点: 1. 支持标准的SQL语法,兼容MySql协议; 支持标准的SQL语法,兼容MySql协议; 2. MPP架构,扩缩容非常简单方便; 3. 支持高并发查询; 4. 跨机房部署,实现最低成本的DR 缺点: 1. 不支持大规模的批处理; 2. 支持insert into,但最理想的是消费Kafka; 全球敏捷运维峰会 广州站 ClickHouse/StarRocks在酒店数据智能平台的架构 全球敏捷运维峰会 广州站 ClickHouse的全量数据同步流程 减少数据中文本信息的冗余存储; • 特别适用于数据量大,查询频次可控的场景,如数据分析,埋点日志系统; 全球敏捷运维峰会 广州站 StarRocks应用小结 • 发挥分布式的优势,要提前做好分区字段规划; • 支持各种join,语法会相对clickhouse简单很多; • 一个sql可以多处用; • 建立好守护进程以及节点监控; 全球敏捷运维峰会 广州站 THANK YOU!0 码力 | 15 页 | 1.33 MB | 1 年前3
 2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰Block 1 Block 2 Block … DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高 核心特点 Bitmap Filter Builder Dynamic Bitmap Index Cache Bitmap Data Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差 数据导入后结果不支持修改/追加 Ø数据类型有限 数据类型只能支持数字类型 Ø数据量有限 数据量达到10亿级以上查询效率有所降低 Ø单表计算 不能进行多表关联计算 一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务 查询服务 ETL工具 一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理 一切以用户价值为依归 Future Thanks 腾讯招聘 腾讯大数据0 码力 | 26 页 | 3.58 MB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, uniqExact支持任意类型去重。 • 非精确去重场景,uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 每个标签的数据可以幵行构建,加快标签数据生产速度。  HDFS文件幵发导入ClickHouse,加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下,复杂查询在10秒内。  支持标签数据实时更新,增加标签、删除标签、修改标签。  标签表达式和查询SQL对用户来说比较友好。  相对亍ElasticSearch的配置,可以节约一半硬件资源。 com/ClickHouse/ClickHouse/pull/4207 Add some bitmap functions by yuzhichang and svladykin  日期的周计算函数,支持十种周计算模式,兼容MySQL周计算函数 https://github.com/ClickHouse/ClickHouse/pull/5212  Bug Fix 30 THANKS!0 码力 | 32 页 | 1.47 MB | 1 年前3
 2. Clickhouse玩转每天千亿数据-趣头条不够问题 2:存储限制,随着表越来多,磁盘报警不断 3:cpu限制 64G对于一些大表(每天600亿+)的处理,很容易报错,虽然有基于磁盘解决方案,但是会影响速度 clickhouse的数据目录还不支持多个数据盘,单块盘的大小限制太大 cpu需要根据实际情况而定 解决: 1:机器的内存推荐128G+ 2:采用软连接的方式,把不同的表分布到不同的盘上面,这样一台机器可以挂载更多的盘 最新版本的”冷热数据分离”特性,曲线救国0 码力 | 14 页 | 1.10 MB | 1 年前3
共 7 条
- 1
 













