4. ClickHouse在苏宁用户画像场景的实践ainer: Array Container Run Container Bitmap Container 10 RoaringBitmap原理介绍 11 丌仅数据结构设计精巧,而且还有 很多高效的Bitmap计算函数。 稀疏数据,劢态分配 最大存储:4096元素 最大空间:8KB 连续数据,劢态分配 最大存储:65536元素 最大空间:128KB 名。 通过重建分布式表迚行AB表切换,指向丌同日期的标签数据表。 通过增加标签数据表的副本数,提升幵发性能。 21 用户画像系统常见应用场景 22 丼个栗子: “双11” 就要到了,需要发放10万张家电类优惠券迚行促销: 预估人数 人群画像 用户ID清单 用户画像场景1—预估人数 输入条件 返回结果 场景描述 场景:限量发放10万张家电类优惠券,先预估出符合条件的用户数。 作,返回用户画像信息。 例如: label_name label_value user_number gender M 12 gender F 15 age 25 11 age 30 16 25 用户画像场景2—人群圈选画像—示例 画像条件 查询SQL 26 用户画像场景3—用户ID清单 输入条件 返回结果 场景描述0 码力 | 32 页 | 1.47 MB | 1 年前3
6. ClickHouse在众安的实践E5-2682 v4 @ 2.50GH • 12 cores 24 processors • 内存: 96GB • 硬盘: 1TB 高效云盘,最大IO吞吐量 140MBps 以事业部、入库时间作双分区导入数据 遇到的问题 导入效率: • 原有导入数据方式在百亿级数据下会报Too many partitions for single INSERT block的问题 • 数据导入慢 原因:0 码力 | 28 页 | 4.00 MB | 1 年前3
8. Continue to use ClickHouse as TSDB13091 ... 11 2019/10/10/ 10:00:00 Tom 26 45% 92 121.55687 31.31908 ... 20 ... ... ... ... ... ... ... ... 2019/10/11/ 11:00:01 Tracy 22 45% 90 116.30101 31.31673 ... 11 2019/10/11/ 11:00:01 Tom Database Why we choose it 2019/10/11/ 11:00:01 Tom 26 45% 96 ... 21 Time Name Age Humidity HeartRate ... Temperature 2019/10/10/ 10:00:00 Tracy 22 45% 95 ... 11 2019/10/10/ 10:00:00 Tom 26 45% 92 2019/10/11/ 11:00:01 Tracy 22 45% 90 ... 11 Why we choose it 2019/10/11/ 11:00:01 Tom 26 45% 96 ... 21 Time Name Age Humidity HeartRate ... Temperature 2019/10/10/ 10:00:00 Tracy 22 45% 95 ... 11 2019/10/10/0 码力 | 42 页 | 911.10 KB | 1 年前3
7. UDF in ClickHousecode structure and the well-designed API • We maintains a custom build Begin Content Area = 16,30 11 The UDF Magic Begin Content Area = 16,30 12 When the “Standard” SQL is not Enough Functionality ClickHouse Begin Content Area = 16,30 18 Array Functions SELECT arraySplit(x -> x >= 10, [11, 4, 5, 14]) = [[11, 4, 5], [14]] SELECT arrayFill(x -> x > 0, [1, 2, 0, 0, 3, 0]) = [1, 2, 2, 2, 3, 3] • Handling0 码力 | 29 页 | 1.54 MB | 1 年前3
C++ zero-cost abstractions на примере хеш-таблиц в ClickHouseхэш-функция для строк. Стандартно можно использовать CityHash, xxHash, wyhash Разрешения коллизий 11 11 Разрешения коллизий 12 12 1. Метод цепочек (Chaining) 2. Открытая адресация (Open Addressing) 30 码力 | 49 页 | 2.73 MB | 1 年前3
ClickHouse: настоящее и будущеевокруг open-source продукта» youtube.com/watch?v=xddKLojmkus&t=4165s ClickHouse — плохая* система 11 Это не оптимально * — не идеальная. Репликация требует ZooKeeper 12 ZooKeeper — отдельный от ClickHouse0 码力 | 32 页 | 2.62 MB | 1 年前3
ClickHouse: настоящее и будущеевокруг open-source продукта» youtube.com/watch?v=xddKLojmkus&t=4165s ClickHouse — плохая* система 11 Это не оптимально * — не идеальная. Репликация требует ZooKeeper 12 ZooKeeper — отдельный от ClickHouse0 码力 | 32 页 | 776.70 KB | 1 年前3
Тестирование ClickHouse которого мы заслуживаемthread contrib static gcc-8 release — contrib static gcc-8 release — system static И это не все... 11 / 77 Тестирование ClickHouse, которого мы заслуживаем ClickHouse не тормозит, сборка тормозит › Время0 码力 | 84 页 | 9.60 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 1 服务监控-扫描详情: 一切以用户价值为依归 12 部署与监控管理 1 服务监控-响应耗时: 一切以用户价值为依归 13 部署与监控管理 1 立体监控模型:0 码力 | 26 页 | 3.58 MB | 1 年前3
1. Machine Learning with ClickHouseexpression for sampling › Optimized by PK › Fixed dataset for fixed sample query › Only for MergeTree 11 / 62 How to sample data SAMPLE x OFFSET y CREATE TABLE trips_sample_time ( pickup_datetime DateTime0 码力 | 64 页 | 1.38 MB | 1 年前3
共 12 条
- 1
- 2













