可空类型 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

6. ClickHouse在众安的实践

数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小数据查询 4.48 5.56 4.71 8.64 18.6 250.57 场景 1 场景 2 场景 3 场景 4 场景 5 时间 s 时间（冷数据）s 一些典型查询的性能测试1：手机号非空&健康险365天保费>100的用户车险总保费分布情况 Elapsed Processed rows Throughput Peak memory 4.480s 132.03 million, 9.24GB

0 码力 | 28 页 | 4.00 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Block 1 Block 2 Block … DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高核心特点 Bitmap Filter Builder Dynamic Bitmap Index Cache Bitmap Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差数据导入后结果不支持修改/追加 Ø数据类型有限数据类型只能支持数字类型 Ø数据量有限数据量达到10亿级以上查询效率有所降低 Ø单表计算不能进行多表关联计算一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse 4亿数据下钻耗时(单机) clickhosue tgface 一切以用户价值为依归 22 业务应用实践 iData 2 • TDW HIVE SQL • 转换成拓展的列 • 嵌套数据类型 • array 数据类型 {"2000352":"2","2":"4","50":"1","26":"28","31":"42"} {"26":"16"} {"26":"32","1":"2","2000209":"1"}

0 码力 | 26 页 | 3.58 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 0.2 0.25 Bitmap Container 0 1 1 0 ① ② ③ ④ ClickHouse集成RoaringBitmap Bitmap字段类型，该类型扩展自AggregateFunction类型，字段类型定义： AggregateFunction( groupBitmap, UInt(8|16|32|64)) 参考： https://clickhouse.y 回最终结果 -MergeState：将中间计算结果迚行合幵计算，返回合幵后的中间结果 ClickHouse集成RoaringBitmap Bitmap的运算函数集：  构造Bitmap类型  Bitmap自身戒者之间的位运算  Bitmap不Array双向转换 Bitmap bitmapToArray Array Integer bitmapBuild

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. ClickHouse MergeTree原理解析-朱凯

型YYYYMMDD格式，则直接按照该整型的字符形式输出作为分区ID的取值。 l 使用日期类型如果分区键取值属于日期类型，或者是能够转换为YYYYMMDD日期格式的整型，则使用按照 YYYYMMDD日期格式化后的字符形式输出作为分区 ID的取值。 l 使用其它类型如果分区键取值既不属于整型，也不属于日期类型，例如String、Float等。则通过128位Hash 算法取其Hash值作为分区ID的取值。 8192 索引数据的生成规则依照索引粒度生成索引，紧凑存储,惜字如金。 PRIMARY KEY ID 索引的查询过程假如现在有一份测试数据，共192行记录。其中，主键ID为String类型， ID的取值从A000、A001、A002，按顺序增长，直至A192为止。 MergeTree的索引粒度index_granularity = 3。索引的查询过程 MergeTree会将此数

0 码力 | 35 页 | 13.25 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

Future Work Future Work v ClickHouse集群容器化，提升物理集群资源使⽤率 v ClickHouse倒排索引调研与改造，提升⽇志检索性能 v 丰富ClickHouse编码类型，拓展zorder应⽤场景，提升圈选计算性能 v ClickHouse存算分离探索，降低集群扩容成本 Q&A

0 码力 | 26 页 | 2.15 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

我们遇到的问题 order by (timestamp, eventType) or order by (eventType, timestamp) 业务场景 1：趣头条和米读的上报数据是按照”事件类型”(eventType)进行区分 2：指标系统分”分时”和”累时”指标 3：指标的一般都是会按照eventType进行区分 select count(1) from table where dt=''

0 码力 | 14 页 | 1.10 MB | 1 年前
3
8. Continue to use ClickHouse as TSDB

• 引入辅助索引，加快数据检索速度低成本存储 • 列式存储结合高效的编码 • Delta、XOR 等适合时序场景的压缩算法 • 通过 Rollup 功能，对历史数据做聚合，减少数据量稳定可扩展 • 分布式架构 • 数据多副本存储 • 服务高可用 Thanks For You

0 码力 | 42 页 | 911.10 KB | 1 年前
3

共 7 条前往

页

ClickHouse 众安实践腾讯 clickhouse 2019 丁晓坤熊峰苏宁用户画像场景 MergeTree 原理解析朱凯海量数据落地 Clickhouse 玩转每天千亿头条 Continue to use as TSDB

分类

语言

格式

6. ClickHouse在众安的实践

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

4. ClickHouse在苏宁用户画像场景的实践

2. ClickHouse MergeTree原理解析-朱凯

ClickHouse在B站海量数据场景的落地实践

2. Clickhouse玩转每天千亿数据-趣头条

8. Continue to use ClickHouse as TSDB