风险投资支持初创公司 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

2. ClickHouse MergeTree原理解析-朱凯

《企业级大数据平台构建：架构与实现》、《ClickHouse原理解析与开发实战》（连载写作中）珠海总部园区占地面积 6 万平方米珠海、北京、武汉 3 研发中心 36 个分支机构 4 多名员工下属公司 14 年+ 14 上市千+ 大家用优质的产品和服务推动企业管理和社会进步产品服务 l 集团资源管理 l 资产全寿命周期管理 l 集团风险管控 l 企业大数据及商业智能能源行业面向社会治理公司主要客户海尔集团东风汽车中信重工首创经中河南省人民医院宏发股份国家电网国家电投集团华能集团大唐集团华电集团电建集团能建集团华润电力中广核内蒙古电力浙能集团陕能集团中石油中石化中冶集团酒钢集团中国商飞厦门航空南京地铁中煤集团许继集团中盐公司中农发集团深粮集团这众多的表引擎中，又属合并树(MergeTree)表引擎及其家族系列(*MergeTree)最为强大，在生产环境绝大部分场景中都应该使用此系列的表引擎。只有合并树系列的表引擎才支持主键索引、数据分区、数据副本和数据采样这些特性，同时也只有此系列的表引擎支持ALTER相关操作。合并树家族其中MergeTree作为家族中最基础的表引擎，提供了主键索引、数据分区、数据副本和数据采样等所有的基本能力，而家族

0 码力 | 35 页 | 13.25 MB | 1 年前
3
6. ClickHouse在众安的实践

Clickhouse在众安的应用实践百亿保险数据实时分析探索众安保险数据智能中心蒙强 2019年10月27日众安保险 • 成立于2013年，是中国第一家互联网保险公司。 • 互联网保险特点： 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿，销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式：报表大数据、流数据统一建模管理 • 垂直方向行业模板，简化开发过程 • 多语言多runtime支持，Bring your own model • 数据流转、建模、机器学习任务的全生命周期管理 • 大规模在线任务监控、自动模型性能监测、重训练与发布 • 追溯数据血缘，数据、算法模型版本管理 • 支持算法模型结果的可重现、可审计 • 缓解AI/机器学习带来的潜在伦理与法律担忧全生命周期管理洞察平台架构 Why Clickhouse? Clickhosue 性能高效的数据导入和查询性能开源低成本，免费压缩比高度的数据压缩比，存储成本更小面向列真正的面向列存储，支持高维度表易观开源OLAP引擎测评报告洞察数据模型+Clickhouse 使用效果 CHAPTER 使用ck对百亿数据的探索 03 背景我们希望对保单、用户数据进行灵活分析，根据用户标签筛选出符合

0 码力 | 28 页 | 4.00 MB | 1 年前
3
3. 数仓ClickHouse多维分析应用实践-朱元

2019-10-20 所遇问题目录 CONTENTS 现状背景应用实践 01 数据链路长现状即席查询性能差数据压缩率低需求响应慢 02 数据架构数据同步ck 01 1，基于公司对数据要求为T+1 2. 基于现有开发人员水平及成本因此采用可视化同步工具kettle. 先将oracle数据平台维度信息以及相关主题清单数据同步至clichouse数据仓库 Oracle数据平台

0 码力 | 14 页 | 3.03 MB | 1 年前
3
蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. 支持常用的SQL语法，写入速度非常快，适用于大量的数据更新； 3. 依赖稀疏索引，列式存储，cpu/内存的充分利用造就了优秀的计算能力，并且不用考虑左侧原则；缺点： 1. 不支持事务，没有真正的update/delete； 2. 不支持高并发，可以根据实际情况修改qps相关配置文件；全球敏捷运维峰会广州站 StarRocks的特点优点： 1. 支持标准的SQL语法，兼容MySql协议；支持标准的SQL语法，兼容MySql协议； 2. MPP架构，扩缩容非常简单方便； 3. 支持高并发查询； 4. 跨机房部署，实现最低成本的DR 缺点： 1. 不支持大规模的批处理； 2. 支持insert into，但最理想的是消费Kafka；全球敏捷运维峰会广州站 ClickHouse/StarRocks在酒店数据智能平台的架构全球敏捷运维峰会广州站 ClickHouse的全量数据同步流程减少数据中文本信息的冗余存储； • 特别适用于数据量大，查询频次可控的场景，如数据分析，埋点日志系统；全球敏捷运维峰会广州站 StarRocks应用小结 • 发挥分布式的优势，要提前做好分区字段规划； • 支持各种join，语法会相对clickhouse简单很多； • 一个sql可以多处用； • 建立好守护进程以及节点监控；全球敏捷运维峰会广州站 THANK YOU！

0 码力 | 15 页 | 1.33 MB | 1 年前
3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

Block 1 Block 2 Block … DataNode-3 DataNode-1 指标计算平台 Ø 分布式计算 • 并行计算 Ø 列式存储 • 按需加载减少IO • 可支持大量列 Ø 动态位图索引 • 缓存上次结果 • 成本低、命中率高核心特点 Bitmap Filter Builder Dynamic Bitmap Index Cache Bitmap Data Extract Data Representation 20 业务应用实践 iData 2 iData画像服务需要升级 Ø扩展性差数据导入后结果不支持修改/追加 Ø数据类型有限数据类型只能支持数字类型 Ø数据量有限数据量达到10亿级以上查询效率有所降低 Ø单表计算不能进行多表关联计算一切以用户价值为依归 21 业务应用实践 iData 2 为什么选择ClickHouse DATA 消息中间件 RDBMS(MYSQL) 数据仓库(TDW) 画像服务 BI服务查询服务 ETL工具一切以用户价值为依归 25 业务应用实践 iData 2 • 支持更多的机器学习算法 • 支持explain 查看整个sql 执行计划 • 集群管理一切以用户价值为依归 Future Thanks 腾讯招聘腾讯大数据

0 码力 | 26 页 | 3.58 MB | 1 年前
3
4. ClickHouse在苏宁用户画像场景的实践

30 40 50 60 时长结论： • 整形值精确去重场景，groupBitmap 比 uniqExact至少快 2x+ • groupBitmap仅支持整形值去重， uniqExact支持任意类型去重。 • 非精确去重场景，uniq在精准度上有优势。 5 0.25 0.46 0.29 0 0 0 0.05 0.1 0.15 每个标签的数据可以幵行构建，加快标签数据生产速度。  HDFS文件幵发导入ClickHouse，加快标签数据的就绪速度。  查询请求平均响应时长在2秒以下，复杂查询在10秒内。  支持标签数据实时更新，增加标签、删除标签、修改标签。  标签表达式和查询SQL对用户来说比较友好。  相对亍ElasticSearch的配置，可以节约一半硬件资源。 com/ClickHouse/ClickHouse/pull/4207 Add some bitmap functions by yuzhichang and svladykin  日期的周计算函数，支持十种周计算模式，兼容MySQL周计算函数 https://github.com/ClickHouse/ClickHouse/pull/5212  Bug Fix 30 THANKS！

0 码力 | 32 页 | 1.47 MB | 1 年前
3
2. Clickhouse玩转每天千亿数据-趣头条

不够问题 2：存储限制，随着表越来多，磁盘报警不断 3：cpu限制 64G对于一些大表(每天600亿+)的处理，很容易报错，虽然有基于磁盘解决方案，但是会影响速度 clickhouse的数据目录还不支持多个数据盘，单块盘的大小限制太大 cpu需要根据实际情况而定解决： 1：机器的内存推荐128G+ 2：采用软连接的方式，把不同的表分布到不同的盘上面，这样一台机器可以挂载更多的盘最新版本的”冷热数据分离”特性，曲线救国

0 码力 | 14 页 | 1.10 MB | 1 年前
3

共 7 条前往

页

分类

语言

格式

2. ClickHouse MergeTree原理解析-朱凯

6. ClickHouse在众安的实践

3. 数仓ClickHouse多维分析应用实践-朱元

蔡岳毅-基于ClickHouse+StarRocks构建支撑千亿级数据量的高可用查询引擎

2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰

4. ClickHouse在苏宁用户画像场景的实践

2. Clickhouse玩转每天千亿数据-趣头条