百度智能云 Apache Doris 文档
别名或者其他标志 符和内部关键词同名时,需要在该名称加上``符号。别名对大小写是敏感的。 举例: SQL-手册 Doris提供在线和离线的SQL手册。 在线的SQL手册通过连接Doris后使用help命令查看。如查看如何创建数据库。 本文档是离线的SQL手册,详细介绍SQL的语法。 注释 Doris支持SQL注释 单行注释: 以--开头的语句会被识别成注释并且被忽略掉。单行注释可 中。 目前仅支持通过无认证或者 SSL 认证方式,从 Kakfa 导入 CSV 或 Json 格式的数据。 语法: 导入作业的名称,在同一个 database 内,相同名称只能有一个 job 在运行。 指定需要导入的表的名称。 数据合并类型。默认为 APPEND,表示导入的数据都是普通的追加写操作。MERGE 和 DELETE 类型仅适用于 Unique Key 模 型表。其中 MERGE 参数设置为 0~1 之间的数值,Doris 会自动 跳过哪些数据格式不正确的行。 关于容忍率的一些计算方式,可以参阅 列的映射,转换与过滤 文档。 6. 严格模式 属性用于设置导入任务是否运行在严格模式下。该格式会对列映射、转换和过滤的结果产生影响。关于严格模 式的具体说明,可参阅 严格模式 文档。 7. 超时时间 Broker Load 的默认超时时间为 4 小时。从任务提交开始0 码力 | 203 页 | 1.75 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
高效为业务赋能,内容库数据平台旨在集成各数据源的数据,整合形成内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过 Spark 统一离线加载到 Kafka 中,使用 Flink 将数据增量更新到 Doris 和 ES 中(利用 Flink 实现进一步的聚合,减轻了 Doris 和 ES 的更新压力)。 加速层:该层主要将 2 亿+。我们希望将这些数据从 TDW 加速到 Doris 中完成标签画像 和指标的分析。从业务的角度,需要满足以下要求: 实时可用:标签/指标导入以后,需实现数据尽快可用。不仅要支持常规离线导入 T+1 ,同时也要支持实时打标场景。 部分更新:因每个 Source 表由各自 ETL 任务产出对应的数据,其产出时间不一致, 并且每个表只涉及部分指标或标签,不同数据查询对时效性要求也不同,因此架构0 码力 | 12 页 | 1.55 MB | 1 年前3Apache Doris 在美团外卖数仓中的应用实践
译、优化、调度 和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 Doris的特点: 同时支持高并发点查询和高吞吐的Ad-hoc查询。 同时支持离线批量导入和实时数据导入。 同时支持明细和聚合查询。 兼容MySQL协议和标准SQL。 支持Rollup Table和Rollup Table的智能查询路由。 支持较好的多表Join策略和灵活的表达式查询。 也得 到进一步验证,服务稳定可靠。 准实时场景下的应用 离线业务分析大多基于T+1的离线数据,但在营销活动场景下,外卖团队往往需要当日的实时数 据进行业务变化的监控与分析,通常情况下会采用实时流计算来实现。 外卖实时业务监控有如下特点: 避免分钟级的生产波动影响,业务上10、15分钟准实时数据可以满足分析需要。 实时数据需要与离线数据进行日环比与周同比的比对。 订单业务需要事件时间,体验业务需要生产时间,业务对齐逻辑复杂。 com ,随着后续Page Cache,内存表等能力的上线,IO将不再拖后腿,并发能力将有较大提升。 可靠的调度能力:提供5、10、15、30分钟的调度保障能力。 Lambda架构简化:实时数据与离线数据更好的在Doris中进行融合,灵活支撑应用。 高效的OLAP交互 :支撑业务的灵活查询访问,业务层通过视图进行逻辑封装直接复用汇总层多维模型,提高了开 发效率,减少了运维成本。 相比Storm0 码力 | 8 页 | 429.42 KB | 1 年前3
共 3 条
- 1