ClickHouse: настоящее и будущееBY, ASOF JOIN, ANY/SEMI JOIN, argMin/argMax Функции для предметной области из коробки: • Click-stream: функции обработки URL и IP-адресов • Performance monitoring: квантили • Geospatial: geoDistance данных • Функции обработки текста на естественном языке • Потоковые запросы и complex event processing • Key-value витрины данных, инкрементальная агрегация в оперативке • Выполнение запросов с использованием0 码力 | 32 页 | 2.62 MB | 1 年前3
ClickHouse: настоящее и будущееASOF JOIN, ANY/SEMI JOIN, argMin/argMax Функции для предметной области из коробки: • Click-stream: функции обработки URL и IP-адресов • Performance monitoring: квантили • Geospatial: geoDistance данных • Функции обработки текста на естественном языке • Потоковые запросы и complex event processing • Key-value витрины данных, инкрементальная агрегация в оперативке • Выполнение запросов с0 码力 | 32 页 | 776.70 KB | 1 年前3
Что нужно знать об архитектуре ClickHouse, чтобы его эффективно использоватьмешают друг другу… ClickHouse: Шардирование + Distributed таблицы! Когда одного сервера не хватает Чтение из Distributed таблицы Чтение из Distributed таблицы CSV 227 Gb, ~1.3 млрд строк SELECT passenger_count Шардов 1 3 140 Время, с. 1,224 0,438 0,043 Ускорени е x2.8 x28.5 Запись в Distributed таблицу Запись в Distributed таблицу › Хочется защититься от аппаратного сбоя… › Данные должны быть доступны0 码力 | 28 页 | 506.94 KB | 1 年前3
ClickHouse on KubernetesBackground ● Premier provider of software and services for ClickHouse ● Incorporated in UK with distributed team in US/Canada/Europe ● US/Europe sponsor of ClickHouse community ● Offerings: ○ 24x7 support Linux” Actually it’s an open-source platform to: ● manage container-based systems ● build distributed applications declaratively ● allocate machine resources efficiently ● automate application easy-to-manage resource ClickHouse Operator ClickHouseInstallation YAML file (Apache 2.0 source, distributed as Docker image) ClickHouse cluster resources kubectl apply create resources What0 码力 | 34 页 | 5.06 MB | 1 年前3
ClickHouse on KubernetesBackground ● Premier provider of software and services for ClickHouse ● Incorporated in UK with distributed team in US/Canada/Europe ● US/Europe sponsor of ClickHouse community ● Offerings: ○ 24x7 support Linux” Actually it’s an open-source platform to: ● manage container-based systems ● build distributed applications declaratively ● allocate machine resources efficiently ● automate application YAML file your-favorite namespace ClickHouse cluster resources (Apache 2.0 source, distributed as Docker image) Altinity ClickHouse Operator Quick Start Installing and removing the ClickHouse0 码力 | 29 页 | 3.87 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰高内存,廉价存储: 单机配置: Memory128G CPU核数24 SATA20T,RAID5 万兆网卡 一切以用户价值为依归 5 部署与监控管理 1 生产环境部署方案: Distributed Table Replica1Replica1 Replica1Replica1 Replica1Replica1 Shard01 Shard02 Shard03 Load Balancing0 码力 | 26 页 | 3.58 MB | 1 年前3
1. Machine Learning with ClickHouseBY sipHash64(pickup_datetime) -- expression for sampling SAMPLE BY expression must be evenly distributed! 12 / 62 How to sample data SAMPLE x OFFSET y SELECT count() FROM trips_sample_time 4329923210 码力 | 64 页 | 1.38 MB | 1 年前3
0. Machine Learning with ClickHouse BY sipHash64(pickup_datetime) -- expression for sampling SAMPLE BY expression must be evenly distributed! 12 / 62 How to sample data SAMPLE x OFFSET y SELECT count() FROM trips_sample_time 4329923210 码力 | 64 页 | 1.38 MB | 1 年前3
2. Clickhouse玩转每天千亿数据-趣头条这个时候对数据的过滤就非常有限了,这个时候几乎就要对当天的数据进行全部扫描 解决: 1:调整索引的顺序,推荐索引列的基数不要太高. 我们遇到的问题 Too many parts(304). Merges are processing significantly slower than inserts. 分析: 1:直接落盘,异步merge - background_pool_size 2:一个Insert Req0 码力 | 14 页 | 1.10 MB | 1 年前3
7. UDF in ClickHousesource-destination pairs • Generating reports = Joining data + Summerizing data • ... The data processing scenario is very similar to OLAP Begin Content Area = 16,30 8 A Database is not Just a “Database”0 码力 | 29 页 | 1.54 MB | 1 年前3
共 11 条
- 1
- 2













