全场景支持 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø 概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品：北极星 v 行为数据分析平台主要以下功能模块：事件分析 v 海量埋点事件数据，⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性，均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。 Future Work v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能 v 丰富ClickHouse编码类型，拓展zorder应⽤场景，提升圈选计算性能 v ClickHouse存算分离探索，降低集群扩容成本 Q&A

0 码力 | 26 页 | 2.15 MB | 1 年前
3
ClickHouse在苏宁用户画像场景的实践

ClickHouse 在苏宁用户画像场景的实践二〇一九年十月苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse  Github: https://github.com/andyyzh Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count 0 10 20 30 40 50 60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05

0 码力 | 32 页 | 1.47 MB | 1 年前
3
6. ClickHouse在众安的实践

Clickhouse在众安的应用实践百亿保险数据实时分析探索众安保险数据智能中心蒙强 2019年10月27日众安保险 • 成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表报表≠数据驱动垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景我们希望对保单、用户数据进行灵活分析，根据用户标签筛选出符合要求的客户进行精准营销。

0 码力 | 28 页 | 4.00 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

如何来补充ClickHouse 的短板； 4. ClickHouse的调优，运维介绍； 5. 应用总结；全球敏捷运维峰会广州站根据实际业务场景需要来选择 1. 不固定的查询条件，不固定的汇总条件； 2. 数据量日益增量，每天要更新的数据量也不断增大； 3. 业务场景不断增多，涉及面越来越广； 4. 需要保证高可用并秒出； 5. 从Sql，Es， CrateDB， Kylin，Ingite，MongoDB，Hbase 2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站 StarRocks的特点优点： 1. 支持标准的SQL语法，兼容MySql协议； MPP架构，扩缩容非常简单方便； 3. 支持高并发查询； 4. 跨机房部署，实现最低成本的DR 缺点： 1. 不支持大规模的批处理； 2. 支持insert into，但最理想的是消费Kafka；全球敏捷运维峰会广州站 ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程 1. 清

0 码力 | 15 页 | 1.33 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

3 研发中心 36 个分支机构 4 多名员工下属公司 14 年+ 14 上市千+ 大家用优质的产品和服务推动企业管理和社会进步产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能 l 企业云服务 l 智能机器人应用 l 集团IT治理 l …… l 能源产业链 l 区域能源管理 l 能源大数据 l 购售电平台合并树这众多的表引擎中，又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数 WHERE ID LIKE 'A006%' ['A006', 'A007') 2. 递归交集判断 3. 合并MarkRange区间索引的查询过程二级索引跳数索引目前，MergeTree共支持4种跳数索引，分别是minmax、set和ngrambf_v1和tokenbf_v1。数据存储按列存储，精心编排，错落有致压缩数据块，就好比是一本书的文字段落，是组织文字的基本单元。压缩数据块

0 码力 | 35 页 | 13.25 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

游戏数据分析的业务背景 l iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集腾讯游戏服务器腾讯游戏移动客户端微信小游戏 WEB 游戏海外游戏 TDM-SDK 客户端采集特性采集大数据基础 PaaS平台 iData 多维提取 … 游戏数据驱动场景潘多拉社交与功能用户增长服务场景游戏社区微信手Q 渠道投放直播电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力大数据应用PaaS服务游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS Block 1 Block 2 Block … DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高核心特点 Bitmap Filter Builder Dynamic Bitmap Index Cache Bitmap

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘最新版本的”冷热数据分离”特性，曲线救国最新版本的”冷热数据分离”特性，曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2：指标系统分”分时”和”累时”指标 3：指标的一般都是会按照eventType进行区分 select count(1) from

0 码力 | 14 页 | 1.10 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

款高性能、具备强大分析能力的时序数据库产品高性能并发读写 • 千万数据点并发实时写入 • 引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3

共 8 条前往

页

分类

语言

格式

ClickHouse在B站海量数据场景的落地实践

ClickHouse在苏宁用户画像场景的实践

6. ClickHouse在众安的实践

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. ClickHouse MergeTree原理解析-朱凯

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

2. Clickhouse玩转每天千亿数据-趣头条

8. Continue to use ClickHouse as TSDB