场景化能力 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Ø 常驻内存模式对内存消耗很⼤ v ⾮常驻内存模式index load过程慢 v 多并发加载优化索引加载速度：日志日志 v Elastic To ClickHouse迁移，降本增效 v OTEL标准化⽇志采集 v 统⼀scheme⽀持日志 v ClickHouse较ES写⼊吞吐量提升近10倍 v ClickHouse存储成本为ES的1/3 日志 v ClickHouse中采⽤分表，统⼀schema的设计概述 v 基于ClickHouse构建B站⽤户⾏为数据分析产品：北极星 v 行为数据分析平台主要以下功能模块：事件分析 v 海量埋点事件数据，⽇增数据千亿级。 v ⽤户⾏为事件的多维度分析场景。 v 事件包含公共属性和私有属性，均可作过滤和聚合维度。 v 不同事件有不同的私有属性字段。 v 动态选择的过滤维度和聚合维度。 v 交互式分析延迟要求 (5秒内)。路径分析 v 选定中⼼事件。

0 码力 | 26 页 | 2.15 MB | 1 年前
3
ClickHouse在苏宁用户画像场景的实践

ClickHouse 在苏宁用户画像场景的实践二〇一九年十月苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse  Github: https://github.com/andyyzh Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询 6. 精确去重计数（count 0 10 20 30 40 50 60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

游戏数据分析的业务背景 l iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集腾讯游戏服务器腾讯游戏移动客户端微信小游戏 WEB 游戏海外游戏 TDM-SDK 客户端采集特性采集大数据基础 PaaS平台任务系统 iData 数据可视化游谱游戏说神秘商店 iData 多维提取 … 游戏数据驱动场景潘多拉社交与功能用户增长服务场景游戏社区微信手Q 渠道投放直播电竞 … 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力大数据应用PaaS服务游戏数据驱动场景 n 实时干预游戏用户 n n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS 在线实时能力 n iData大数据分析：多维分析，画像分析能力 n DataMore大数据实时决策能力一切以用户价值为依归 17 业务应用实践 iData 2 新大数据分析引擎2.0 业界传统大数据分析引擎大数据分析引擎&存储 Analytical Engine & Database

0 码力 | 26 页 | 3.58 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

*MergeTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数据采样等所有的基本能力，而家族中其他的表引擎则在MergeTree的基础之上各有所长。型YYYYMMDD格式，则直接按照该整型的字符形式输出作为分区ID的取值。 l 使用日期类型如果分区键取值属于日期类型，或者是能够转换为YYYYMMDD日期格式的整型，则使用按照 YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。

0 码力 | 35 页 | 13.25 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

如何来补充ClickHouse 的短板； 4. ClickHouse的调优，运维介绍； 5. 应用总结；全球敏捷运维峰会广州站根据实际业务场景需要来选择 1. 不固定的查询条件，不固定的汇总条件； 2. 数据量日益增量，每天要更新的数据量也不断增大； 3. 业务场景不断增多，涉及面越来越广； 4. 需要保证高可用并秒出； 5. 从Sql，Es， CrateDB， Kylin，Ingite，MongoDB，Hbase 的特点优点： 1. 数据压缩比高，存储成本相对非常低； 2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站 StarRocks的特点是否采用分布式； • 监控好服务器的cpu/内存波动/`system`.query_log； • 数据存储磁盘尽量采用ssd； • 减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划； • 支持各种join，语法会相对clickhouse简单很多；

0 码力 | 15 页 | 1.33 MB | 1 年前
3
6. ClickHouse在众安的实践

成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表报表≠数据驱动每天被访问超过10次的报表寥寥无几传统报表访问往往是静态的、高聚合、低频、表单式的集智平台可视化交互分析数据加工的链路与数据价值发现竞争优势源数据数据清洗标准报表 OLAP系统商务智能（BI）机器学习建模人工智能优化发生了什么？为什么发生？什么会发生？什么是最佳决策？分析性数据仓库数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台 Antron 机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台模板 X-BI 数据探索平台图像分类平台 OCR工具链 X-Farm 异构数据治理、协同平台元数据管理/数据集市数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理

0 码力 | 28 页 | 4.00 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

QingCloud ChronusDB 青云 QingCloud 自研的一款高性能、具备强大分析能力的时序数据库产品高性能并发读写 • 千万数据点并发实时写入 • 引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储

0 码力 | 42 页 | 911.10 KB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

我们遇到的问题业务背景基于storm的实时指标的计算存在的问题 1：指标口径(SQL) -> 实时任务 2：数据的回溯 3：稳定性业务背景什么是我们需要的? 1：实时指标SQL化 2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算集群现状 100+台32核128G 部分复杂累时查询30S内完成集群现状最新版本的”冷热数据分离”特性，曲线救国? 我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2：指标系统分”分时”和”累时”指标 3：指标的一般都是会按照eventType进行区分 select count(1)

0 码力 | 14 页 | 1.10 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台 • 通过kettle每天定时导出文件至本地 Etl服务器

0 码力 | 14 页 | 3.03 MB | 1 年前
3

共 9 条前往

页

分类

语言

格式