1. Machine Learning with ClickHousebatch_size › optimizer: Adam, SGD, Momentum, Nesterov All parameters are specified for stochastic gradient descent. Related page: https://www.jianshu.com/p/9329294d56d2 24 / 62 Stochastic model with 0.08 + 5.91 Year doesn’t seem to matter a lot for trained model 25 / 62 Stochastic model with default parameters 26 / 62 Stochastic model with default parameters Actually, our last feature was not 5418692076782445] That’s better! 27 / 62 Stochastic model with default parameters 28 / 62 Models management in ClickHouse How to store trained model You can store model as aggregate function state in a separate0 码力 | 64 页 | 1.38 MB | 1 年前3
0. Machine Learning with ClickHouse ameters)(target, x1, ..., xN) Available parameters: › learning_rate › l2_regularization › batch_size › optimizer: Adam, SGD, Momentum, Nesterov All parameters are specified for stochastic gradient descent Related wiki page: https://en.wikipedia.org/wiki/Stochastic_gradient_descent 24 / 62 Stochastic model with default parameters SELECT stochasticLinearRegression( total_amount, trip_distance, toYear(pickup_datetime) 0.08 + 5.91 Year doesn’t seem to matter a lot for trained model 25 / 62 Stochastic model with default parameters 26 / 62 Stochastic model with default parameters Actually, our last feature was not0 码力 | 64 页 | 1.38 MB | 1 年前3
8. Continue to use ClickHouse as TSDBwe choose it How we do ► ClickHouse 实现方式 ► (1) Column-Orient Model ► (2) Time-Series-Orient Model How we do ► Column-Orient Model How we do CREATE TABLE demonstration.insert_view ( `Time` ENGINE = MergeTree() PARTITION BY toYYYYMM(Time) ORDER BY (Name, Time, Age, ...); ► Column-Orient Model How we do CREATE TABLE demonstration.insert_view ( `Time` DateTime, `Name` LowCardinality(String) Column-Orient Model How we do CPU : Intel Skylake 8 core Memory : 64 GB Disk : 500GB SSD Data Set : TSBS, 12 Hours, 40000 Drivers, 10 Metrics ≈ 16.9 billion Rows ► Column-Orient Model How we do0 码力 | 42 页 | 911.10 KB | 1 年前3
7. UDF in ClickHouserandomly Example: Finding a shortest path in the graph • Iterating Example: Training a regression model • Handling domain-specific data Example: Computing the edit distance between two strings • ...0 码力 | 29 页 | 1.54 MB | 1 年前3
6. ClickHouse在众安的实践基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 • 垂直方向行业模板,简化开发过程 • 多语言多runtime支持,Bring your own model • 数据流转、建模、机器学习任务的全生命周 期管理 • 大规模在线任务监控、自动模型性能监测、 重训练与发布 • 追溯数据血缘,数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计0 码力 | 28 页 | 4.00 MB | 1 年前3
ClickHouse in ProductionIdea › External source › In memory hash table › Asynchronus update › Key-value access › Controllable size bannerid orderid 762 345 2 3 banner 2 3 345 762 BannerDict BannerID OrderID PostgreSQL Hashed › Cache(size) › ComplexKeyHashed › ComplexKeyCache(size) › Range Hashed 0 1 2 3 Int Float64 String Int Float64 String Int Float64 String Int Float64 String hash(Key) = Key max_size = 500000 › Hashed › Cache(size) › ComplexKeyHashed › ComplexKeyCache(size) › Range Hashed 0 1 2 3 Int Float64 String Int Float64 String Int Float64 String Int Float64 String max_size = unlimited UInt640 码力 | 100 页 | 6.86 MB | 1 年前3
2. ClickHouse MergeTree原理解析-朱凯UInt32(4字节)整型组成 。 压缩数据块大小 l 单个批次数据 size < 64K 如果单个批次数据小于64K,则继续获取下一批 数据,直至累积到size >= 64K时,生成下一个压缩 数据块。 l 单个批次数据 64K<= size <=1M 如果单个批次数据大小恰好在64K与1M之间,则 直接生成下一个压缩数据块。 l 单个批次数据 size > 1M 如果单个批次数据直接超过1M,则首先按照1M 个压缩数据块的情况。 每个压缩数据块的体积,按照其压缩前的数据字节大小,都被严格的控制在64K~1M之间,其上下限分 别由min_compress_block_size(默认65536)与max_compress_block_size(默认1048576)参数指定。 数据标记 数据标记的作用 数据标记作为衔接一级索引和数据桥梁,起作用像极 了做过标记小抄的书签,而且书本中每个一级章节都 拥有各自的书签。0 码力 | 35 页 | 13.25 MB | 1 年前3
C++ zero-cost abstractions на примере хеш-таблиц в ClickHouseстепени двойки. Медленное деление даже с constant switch, libdivide но есть ещё fastrange size_t place = hash & (size - 1) Выбор load factor 18 18 0.5 хороший вариант для линейных проб с шагом 1 ClickHouse0 码力 | 49 页 | 2.73 MB | 1 年前3
2. Clickhouse玩转每天千亿数据-趣头条分析: 1:直接落盘,异步merge - background_pool_size 2:一个Insert Request,涉及N个分区的数据,在磁盘上就会生成N个数据目录,merge跟不上 3:一个目录,一个zxid,zookeeper集群的压力大,插入速度严重变慢 解决: 1:增大background_pool_size治标不治本 2:设置分区的时候需要思考,数据的特性需要了解 我们遇到的问题0 码力 | 14 页 | 1.10 MB | 1 年前3
5. ClickHouse at Ximalaya for Shanghai Meetup 2019 PDF�������������� ������ • �������������������������������������������� • dataFrame.repartition(clickHouseServers.size) • ���������������������������������������������������������� dataFrame.streamToClickHouse(clickHouseServers0 码力 | 28 页 | 6.87 MB | 1 年前3
共 12 条
- 1
- 2













