2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰MultiTable 100000 1k 21 29 215 NO MultiTable 100000 10k 9 49 413 NO 一切以用户价值为依归 8 部署与监控管理 1 应用监控-业务指标: 一切以用户价值为依归 9 部署与监控管理 1 服务监控-错误日志: 一切以用户价值为依归 10 部署与监控管理 1 服务监控-请求指标: 一切以用户价值为依归 11 部署与监控管理 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏 数据化驱动服务 场景视图: TGlog 服务端采集 腾讯游戏 服务器 腾讯游戏 移动客户端 微信 小游戏 WEB 游戏 海外 游戏 TDM-SDK 客户端采集 特性 采集 大数据基础 PaaS平台 游戏 营销活动 Dbbinlog 数据库采集 Game DB Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差 数据导入后结果不支持修改/追加 Ø数据类型有限 数据类型只能支持数字类型 Ø数据量有限 数据量达到10亿级以上查询效率有所降低 Ø单表计算 不能进行多表关联计算 一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse • SQL • OLAP • 超高性能0 码力 | 26 页 | 3.58 MB | 1 年前3
 6. ClickHouse在众安的实践数据智能中心 蒙强 2019年10月27日 众安保险 • 成立于2013年,是中国第一家互联网保险公司。 • 互联网保险特点: 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 标签几百个,数据存 储和查询以及分析的压力就会很大,原有系统使用es来保存用户标签 数据。 保单表 用户表 用户行为表 ODPS ES 用户标签表 痛点 • 数据查询慢:每个查询需要5~10分钟; • 数据更新慢:更新数据可能需要数天时间; • 不灵活:用户有新标签需求时,需要提需求给标签开发人员排期开发 需求,开发人员开发完再更新到系统中,这时离需求提出可能已经过 去几天,无法及时给到业务人员反馈。 花费~250s,性能瓶颈在硬盘io (iostat util 100%) • 第二次执行,大部分数据已经在内存里 花费~18s,性能瓶颈在cpu (top cpu usage ~1447%) • 两次运行的比较: Metric First run Second run top %CPU ~116% ~1447% Peak Memory 1.84GiB 1.91GiB iostat %util 100%0 码力 | 28 页 | 4.00 MB | 1 年前3
 8. Continue to use ClickHouse as TSDBTemperature 2019/10/10/ 10:00:00 Tracy 22 45% 95 116.29860 40.13091 ... 11 2019/10/10/ 10:00:00 Tom 26 45% 92 121.55687 31.31908 ... 20 ... ... ... ... ... ... ... ... 2019/10/11/ 11:00:01 Tracy 45% 90 116.30101 31.31673 ... 11 2019/10/11/ 11:00:01 Tom 26 45% 96 121.54794 31.32318 ... 21 INSERT INTO ... ► Row-Orient Database Why we choose it 2019/10/11/ 11:00:01 Tom 26 45% 96 ... 21 Time Temperature 2019/10/10/ 10:00:00 Tracy 22 45% 95 ... 11 2019/10/10/ 10:00:00 Tom 26 45% 92 ... 20 ... ... ... ... ... ... ... 2019/10/11/ 11:00:01 Tracy 22 45% 90 ... 11 Why we choose it 2019/10/11/ 11:00:010 码力 | 42 页 | 911.10 KB | 1 年前3
 4. ClickHouse在苏宁用户画像场景的实践苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ,从事大规模分布式系统研发  10+years C++、Java、Go编程经验,熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github groupBitmap(id) 7.038 63039307 0 0% 4 精确去重计数性能测试 1.554 1.341 1.613 50.437 7.038 0 10 20 30 40 50 60 时长 结论: • 整形值精确去重场景,groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重, er中,RoaringBitmap有三类Container:  Array Container  Run Container  Bitmap Container 10 RoaringBitmap原理介绍 11 丌仅数据结构设计精巧,而且还有 很多高效的Bitmap计算函数。 稀疏数据,劢态分配 最大存储:4096元素 最大空间:8KB 连续数据,劢态分配0 码力 | 32 页 | 1.47 MB | 1 年前3
 7. UDF in ClickHouseArea = 16,30 10 Why ClickHouse Limited hardware resources & time → efficiency matters Performance • Each node is able to handle billions of rows • Most queries can be done in 0.1s-10min Ease of Use 30 13 When the “Standard” SQL is not Enough Performance Concerns • A “dull” SQL solution can be 10x-1000x slower than a native C++ program Example: Multiple self-joining on time series Ease of Use facilities in ClickHouse Begin Content Area = 16,30 18 Array Functions SELECT arraySplit(x -> x >= 10, [11, 4, 5, 14]) = [[11, 4, 5], [14]] SELECT arrayFill(x -> x > 0, [1, 2, 0, 0, 3, 0]) = [1, 2, 20 码力 | 29 页 | 1.54 MB | 1 年前3
 1. Machine Learning with ClickHouse(sipHash64(trip_id) % 1000) = 0 LIMIT 1 SETTINGS max_threads = 1 ┌──trip_id─┐ │ 48203111 │ └──────────┘ 10 / 62 How to sample data SAMPLE x OFFSET y Must specify an expression for sampling › Optimized by TSV -- 0 + 1 + 2 + 3 + 4 10 Use sumState to get aggregate function state SELECT sumState(number) FROM numbers(5) FORMAT TSV \n\0\0\0\0\0\0\0 -- Binary data. ASCII for \n is 10. Column has special type final result SELECT sumMerge(x) FROM tab FORMAT TSV 10 Function finalizeAggregation does the same SELECT finalizeAggregation(x) FROM tab FORMAT TSV 10 32 / 62 How to store trained model You can store0 码力 | 64 页 | 1.38 MB | 1 年前3
 0. Machine Learning with ClickHouse (sipHash64(trip_id) % 1000) = 0 LIMIT 1 SETTINGS max_threads = 1 ┌──trip_id─┐ │ 48203111 │ └──────────┘ 10 / 62 How to sample data SAMPLE x OFFSET y Must specify an expression for sampling › Optimized by TSV -- 0 + 1 + 2 + 3 + 4 10 Use sumState to get aggregate function state SELECT sumState(number) FROM numbers(5) FORMAT TSV \n\0\0\0\0\0\0\0 -- Binary data. ASCII for \n is 10. Column has special type final result SELECT sumMerge(x) FROM tab FORMAT TSV 10 Function finalizeAggregation does the same SELECT finalizeAggregation(x) FROM tab FORMAT TSV 10 32 / 62 How to store trained model You can store0 码力 | 64 页 | 1.38 MB | 1 年前3
 3. Sync Clickhouse with MySQL_MongoDBname flag update_time UUID0 2 Bob1 2 2019-10-01 00:00:00 UUID1 2 Bob1.5 2 2019-10-01 12:00:00 UUID2 2 Bob2 2 2019-10-02 00:00:00 UUID3 2 Bob2 3 2019-10-03 00:00:00 BONUS Time travel history state0 码力 | 38 页 | 7.13 MB | 1 年前3
 Тестирование ClickHouse которого мы заслуживаемОсновной репозиторий: https://github.com/google/sanitizers › Внутри LLVM: http://compiler-rt.llvm.org/ 10 / 77 Тестирование ClickHouse, которого мы заслуживаем Сборка: конфигурации Компилятор Тип сборки заслуживаем ClickHouse не тормозит, сборка тормозит › Время одной сборки – 20 минут на 32 ядрах + 128 RAM › 10 вариантов сборок на каждый коммит 12 / 77 Тестирование ClickHouse, которого мы заслуживаем Сборка: влияние диска и кэшей › Фиксировать CPU и память › Подбирать условия останова › Проверять запросы дольше 10ms › Использовать реальные данные › Точно замерять время 41 / 77 Тестирование ClickHouse, которого0 码力 | 84 页 | 9.60 MB | 1 年前3
 ClickHouse in Productionmt-log mt-giga Key-Value Store Dictionary Data DB Java API BI Tool Site Owner Data analyst 10 / 97 ClickHouse in Production: Yandex.Metrika Site visitor Embedded JS HTTP Server Message Broker / 97 ClickHouse in Production: Cloudflare › One of largest CDN and DNS provider › 6’000’000 RPS › 10% of internet requests every day › 1’300’000 DNS requests per second › More than 100 servers running Attributes and Key CREATE DICTIONARY SomeDict ( Key1 UInt64, Key2 String, V1 Int8 EXPRESSION rand() % 10, V2 Float64 DEFAULT 42 ) PRIMARY KEY Key1, Key2 V2 Key2 Key1 Key2 Key1 Key2 Hash Function V10 码力 | 100 页 | 6.86 MB | 1 年前3
共 17 条
- 1
 - 2
 













