Doris的数据导入机制以及原子性保证
Contributor 100+,一线互 联网广泛使用 2018 07 01 Doris简介 产品特性 简单易用 扩展性强 性能卓越 高可用 • 高度兼容MySQL • 支持在线表结构变更 • 支持集群动态伸缩 • 高度集成,不依赖于外部存储系统 • 架构优雅,单集群可水平扩展至200台以上 • 查询性能业界领先 • 高并发查询,100台集群可达10w QPS • 流式导入单节点100MB/s,小批量导入毫 (C++) 整体架构简单,产品易用 • 高度兼容MySQL协议 • 主从架构,不依赖任何其他组件 • FE负责解析/生成/调度查询计划 • BE负责执行查询计划、数据存储 • 任何节点都可线性扩展 01 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用0 码力 | 33 页 | 21.95 MB | 1 年前3百度智能云 Apache Doris 文档
作数,然后再做相应的按位操作。在 1个表达式中可以出现多个算术操作符,用户可以用小括号将相应的算术表达式括起来。算术操作符通常没有对应的数学函 数来表达和算术操作符相同的功能。比如我们没有MOD()函数来表示%操作符的功能。反过来,数学函数也没有对应的算术 操作符。比如幂函数POW()并没有相应的 **求幂操作符。用户可以通过数学函数章节了解我们支持哪些算术函数。 Between操作符 Between操作符 trim()。 举例: 比较操作符 比较操作符 比较操作符用来判断列和列是否相等或者对列进行排序。=, !=, <>, <, <=, >, >=可以适用所有数据类型。其中<>符号是不等于 的意思,和!=的功能是一样的。IN和BETWEEN操作符提供更简短的表达来描述相等、小于、大小等关系的比较。 In操作符 In操作符 in操作符会和VALUE集合进行比较,如果可以匹配该集合中任何一元素,则返回TR enable_insert_strict true true INSERT INSERT VALUES VALUES Baidu 百度智能云文档 SQL手册 14 例行导入(Routine Load)功能,支持用户提交一个常驻的导入任务,通过不断的从指定的数据源读取数据,将数据导入到 Doris 中。 目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。0 码力 | 203 页 | 1.75 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
较高的业务,需要严格控制查询时效(基本在毫秒级),对于并发不高的业务,允许进行 较大的查询,但也要考虑集群的承受能力。 通过一年来的应用以及Doris的不断改进升级,Doris的高可靠、高可用、高可扩展性也得 到进一步验证,服务稳定可靠。 准实时场景下的应用 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 不同业务线需求差异大,指标需要良好扩展性。 由于业务上的复杂性,实时流计算中,需要考虑诸多业务口径的对齐,业务ER模型在合流处理中 开发成本较高,资源占用较大,通过设计基于Doris的准实时生产数仓,可以灵活地实现业务微批 处理,且开0 码力 | 8 页 | 429.42 KB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
分钟内就可以使用相应的数据。 值得关注的是,在社区近期发布的 1.2.0 版本中,增加了 Light Schema Change 功能, 对 于增减列的操作不需要修改数据文件,只需要修改 FE 中的元数据,从而可以实现毫秒级的 Schame Change 操作。同时开启 Light Schema Change 功能的数据表也可以支持列名的 修改,这与我们的需求十分匹配,后续我们也会及时升级到最新版本。 写入优化 接 预聚合,减少写入压力。(前文已说明,此处不再赘述) 写入 Batch 大小自适应变更:为了不占用过多 Flink 资源,我们实现了从同一个 Kafka Topic 中消费数据写入到不同 Doris 表中的功能,并且可以根据数据的大小 自动调整写入的批次,尽量做到攒批低频写入。 Doris 写入调优:针对- 235 报错进行相关参数的调优。比如设置合理的分区和分桶 (Tablet 建议 1-10G),同时结合场景对 NOT 逻辑组合。由于高 性能的向量化实现和面向 AP 数据库的精简优化,Doris 的倒排索引相较于 ES 会有 3~5 倍性价比提升,即将在 2 月底发布的 2.0 preview 版本中可用于功能评估和性能测试,相 信在这个场景使用后会有进一步的性能提升。 成本优化 在当前大环境下,降本提效成为了企业的热门话题,如何在保证服务质量的同时降低成本开 销,是我们一直在思考的问题。在我们的场景中,成本优化主要得益于0 码力 | 12 页 | 1.55 MB | 1 年前3
共 4 条
- 1