Clickhouse - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

SelectDB案例从 ClickHouse 到 Apache Doris

1 从 ClickHouse 到 Apache Doris，腾讯音乐内容库数据平台架构演进实践 2023/02/20SelectDB 用户案例导读：腾讯音乐内容库数据平台旨在为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分析服务，高效为业务赋能。目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache 掘等的存储和计算都是在 TDW 中进行，内容库数据平台的数据加工链路同样是在腾讯数据仓库 TDW 上构建的。截止目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引入到深度应用，有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题，收益显著。接下来将为大家分享腾讯音乐内容 ODS-DWD-DWS 三层将数据整合为不同主题的标签和指标体系， DWM 集市层围绕内容对象构建大宽表，从不同主题域 DWS 表中抽取字段。  加速层：在数仓中构建的大宽表导入到加速层中，Clickhouse 作为分析引擎， Elasticsearch 作为搜索/圈选引擎。  应用层：根据场景创建 DataSet，作为逻辑视图从大宽表选取所需的标签与指标，同时可以二次定义衍生的标签与指标。

0 码力 | 12 页 | 1.55 MB | 1 年前
3
ClickHouse在众安的实践

Clickhouse在众安的应用实践百亿保险数据实时分析探索众安保险数据智能中心蒙强 2019年10月27日众安保险 • 成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表数据洞察与可视化数据治理预测分析与机器学习 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入消息中间件模型、算法模版机器学习平台缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理追溯与可重现洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景

0 码力 | 28 页 | 4.00 MB | 1 年前
3
Clickhouse玩转每天千亿数据-趣头条

Clickhouse玩转每天千亿数据趣头条王海胜提纲 • 业务背景 • 集群现状 • 我们遇到的问题业务背景基于storm的实时指标的计算存在的问题 1：指标口径(SQL) -> 实时任务 2：数据的回溯 3：稳定性业务背景什么是我们需要的? 1：实时指标SQL化 2：数据方便回溯，数据有问题，方便恢复 3：运维需要简单 4：计算要快，在一个周期内，要完成所有的指标的计算 1：内存限制，对于一些大的查询会出现内存不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘我们遇到的问题查询过程中clickhouse-server进程挂掉分析： clickhouse裸奔时max_memory_usage_for_all_queries默认值为0，即不限制clickhouse内存使用解决： clickhouse安装完成以后，在users.xml文件中配置一下max_memory_usage_for_all_queries，控制 clickhouse-server最大占用内存，避免被OS

0 码力 | 14 页 | 1.10 MB | 1 年前
3
ClickHouse MergeTree原理解析-朱凯

ClickHouse MergeTree原理解析朱凯@深圳 2019.10 朱凯远光软件大数据事业部/平台开发部总经理资深架构师，腾讯云TVP专家 10多年IT从业经验，精通Java、Nodejs等语言方向著有: 《企业级大数据平台构建：架构与实现》、《ClickHouse原理解析与开发实战》（连载写作中）珠海总部园区占地面积 6 万平方米珠海、北京、武汉数据分区 01 / 一级索引&二级索引 02 / 数据存储 03 / 数据标记 04 / 表引擎表引擎，是ClickHouse设计实现中的一大特色。可以说正是由表引擎，决定了一张数据表最终的性格，它拥有何种特性、数据以何种形式被存储以及如何被加载。 ClickHouse拥有非常庞大的表引擎体系，截至到目前(19.14.6)，共拥有合并树、内存、文件、接口和其他5大类20多种。合并树则在MergeTree的基础之上各有所长。 MergeTree的名称由来 MergeTree在写入一批数据时，数据总会以数据片段的形式写入磁盘，且数据片段不可修改。为了避免片段过多，ClickHouse会通过后台线程定期合并这些数据片段，属于相同分区的数据片段会被合成一个新的片段。这种数据片段往复合并的特点也正是合并树的名称由来。 MergeTree的创建方式 CREATE TABLE

0 码力 | 35 页 | 13.25 MB | 1 年前
3
ClickHouse在B站海量数据场景的落地实践

ClickHouse在B站海量数据场景的落地实践胡甫旺哔哩哔哩OLAP平台目录 vClickHouse在B站 v内核 v日志 v用户行为数据分析 vFuture Work vQ&A ClickHouse在B站 B站ClickHouse应用概况 v 近400个节点，30个集群 v ⽇均1.5+万亿条数据摄⼊ v ⽇均800+万次Select请求 v 应⽤场景包括（不限于）： Management) 基于ClickHouse的交互式OLAP技术架构 Cluster-01 Cluster-02 Cluster-n 。。。 ClickHouse Yuuni 定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口请求管理/流量控制查询缓存查询分发器查询处理器 ClickHouse 监控管理平台元数据管理 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink & ClickHouse JDBC) Applications 用户程序 Flink/JDBC/Go/HTTP 标签圈人。。。广告DMP 内容定投内容分析日志&Trace 平台 APM ClickHouse as Service v Berserker数据源管理： Ø 建表 Ø 修改表元数据

0 码力 | 26 页 | 2.15 MB | 1 年前
3
使用Rust与ClickHouse构建高效可靠的日志系统

第三届中国Rust开发者大会使用Rust与ClickHouse构建高效可靠的日志系统刘炜腾讯云（专有云） • 自我介绍 • 系统介绍 • 整体架构 • 系统实现 • 遇到问题大纲自我介绍 • 大龄码农 • 做过嵌入式/CDN/数据库开发 • 从C/C++到Rust • 现在在腾讯云（专有云）从事日志系统的开发自我介绍 PhoTto / image / chart 提供日志的搜索/报警/处理等功能系统介绍 • 为什么放弃 Loki • 资源占用过大 • 统计/计算能力比较弱 • 组件过多，排查问题比较困难 • 商业使用不友好的开源协议 • 为什么选择Mencius+ClickHouse • 存储计算与业务分离 • 计算/统计能力更强 • 资源占用更小，性能更好 • 更友好的开源协议系统介绍 • 多种接入方式 • Agent • Client • 查询 • • 写入 • 每天 100G • 磁盘 • 压缩比 1:13 • 内存 • Mencius • 200M左右 • ClickHouse • 2G以下 • 接入端 • API Gateway • 日志服务(Mencius) • 存储(ClickHouse) 整体架构 • 协议层 • 处理层 • 计算层 • 存储层系统实现协议层 • 支持协议 • Loki • 写入

0 码力 | 19 页 | 2.66 MB | 1 年前
3
ClickHouse在苏宁用户画像场景的实践

ClickHouse 在苏宁用户画像场景的实践二〇一九年十月苏宁科技集团.大数据中心.杨兆辉 1 关亍我  苏宁科技集团大数据中心架构师  曾就职亍中兴通讯10+years ，从事大规模分布式系统研发  10+years C++、Java、Go编程经验，熟悉大数据架构、解决方案  ClickHouse Contributor  Github: https://github.com/andyyzh Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap 用户画像场景实践 2 选择ClickHouse的原因 1. 速度快 2. 特性发布快 3. 软件质量高 4. 物化视图 5. 高基数查询精确去重计数性能测试 6 ClickHouse在苏宁使用场景  OLAP平台存储引擎 -- 存储时序数据、cube加速数据，应用亍高基数查询、精确去重场景。  运维监控 -- 实时聚合分析监控数据，主要使用物化视图技术。  用户画像场景 -- 标签数据的存储、用户画像查询引擎。 7 Contents 苏宁如何使用ClickHouse ClickHouse集成Bitmap

0 码力 | 32 页 | 1.47 MB | 1 年前
3
腾讯 clickhouse实践 _2019丁晓坤&熊峰

ClickHouse 应用实践丁晓坤 & 熊峰一切以用户价值为依归 2 • Clickhouse 的部署与监控管理 • Clickhouse 的应用实践 iData 目录部署与监控管理一切以用户价值为依归 3 1 4 部署与监控管理 1 高内存，廉价存储：单机配置: Memory128G CPU核数24 SATA20T，RAID5 万兆网卡一切以用户价值为依归一切以用户价值为依归 15 业务应用实践 iData 2 一切以用户价值为依归 l 游戏数据分析的业务背景 l iData 数据分析引擎TGMars l 为什么选用ClickHouse l 平台在ClickHouse上的使用 16 业务应用实践 iData 2 腾讯游戏数据化驱动服务场景视图： TGlog 服务端采集腾讯游戏服务器腾讯游戏移动客户端微信数据类型只能支持数字类型 Ø数据量有限数据量达到10亿级以上查询效率有所降低 Ø单表计算不能进行多表关联计算一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse • SQL • OLAP • 超高性能 • 列式存储 • 统计函数 • 线性扩展 • 驱动丰富 0.817 1.883 1.168 1.417 1.15 1.751

0 码力 | 26 页 | 3.58 MB | 1 年前
3
数仓ClickHouse多维分析应用实践-朱元

clickhouse数仓应用实践演讲人：朱元日期： 2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台 • 通过kettle每天定时导出文件至本地 Etl服务器 • 通过clickhouse- client将文本导入ck数据库 clickhouse数据库数仓建设 01 ck数仓数据模型采用星型模型搭建 02 数仓建设 – 维度表一般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary)

0 码力 | 14 页 | 3.03 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

全球敏捷运维峰会广州站基于ClickHouse+StarRocks 构建支撑千亿级数据量的高可用查询引擎演讲人：蔡岳毅全球敏捷运维峰会广州站 1. 为什么选择ClickHouse/StarRocks； 2. ClickHouse/StarRocks的高可用架构； 3. 如何合理的应用ClickHouse的优点，StarRocks 如何来补充ClickHouse 的短板； 4. ClickHouse的调优，运维介绍；业务场景不断增多，涉及面越来越广； 4. 需要保证高可用并秒出； 5. 从Sql，Es， CrateDB， Kylin，Ingite，MongoDB，Hbase 不断的研究，实践；全球敏捷运维峰会广州站 ClickHouse 的特点优点： 1. 数据压缩比高，存储成本相对非常低； 2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，缺点： 1. 不支持大规模的批处理； 2. 支持insert into，但最理想的是消费Kafka；全球敏捷运维峰会广州站 ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程 1. 清空A_temp表，将最新的数据从Hive通过ETL导入到A_temp表; 2. 将A

0 码力 | 15 页 | 1.33 MB | 1 年前
3

共 45 条前往

页

分类

语言

格式

SelectDB案例从 ClickHouse 到 Apache Doris

ClickHouse在众安的实践

Clickhouse玩转每天千亿数据-趣头条

ClickHouse MergeTree原理解析-朱凯

ClickHouse在B站海量数据场景的落地实践

使用Rust与ClickHouse构建高效可靠的日志系统

ClickHouse在苏宁用户画像场景的实践

腾讯 clickhouse实践 _2019丁晓坤&熊峰

数仓ClickHouse多维分析应用实践-朱元

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎