Apache Doris 在美团外卖数仓中的应用实践## Apache Doris在美团外卖数仓中的应用实践 ## 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我们提出建议。 ## 数仓交互层引擎的应用现状 目前,互联网业 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hadoop/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL)、MOLAP(Kylin)引擎来进行支撑。如下图所示:   Oracle数据平台 - 通过kettle每天定时导出文件至本地 clickhouse数据库 ## 数仓建设  ## 数仓建设-维度表 ### 一 般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) ! [Image](/uploads/documents/a/5/4/5/a5458db7fb86ab4e1f5c1167e010676e/p9_2.jpg) ## 数仓建设-主题事实清单表 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle 数据平台增量同步到 ck 数仓. create table dw_hr.fct_rpt_dc_shop_vender_day ( stat_year Int160 码力 | 14 页 | 3.03 MB | 2 年前3
PieCloudDB云原生数仓虚拟化之路0 码力 | 44 页 | 1.64 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书the lazy dog. ## 目录 行业背景 3 数据量的爆发式增长 3 数据库的未来在云上 3 传统数仓的痛点 4 云时代的数据处理要求 5 PieCloudDB,云原生虚拟数仓 6 PieCloudDB 产品概述 7 PieCloudDB 产品架构 7 PieCloudDB 产品特性 13 关于OpenPie 15 附录:术语表 16 ## 行业背景 石油是工业的血液,数据是数字经济的“石油”,数据分析则是石油精炼。 随着信息技术的发展,互联网应用的加速普及,人类进入了数字经济时代。进入二十一世纪以后,随着移动互联网技术、物联网技术、5G等技术的发展,全球数据圈(Global Datasphere)呈指数级递增,IDC预测全球数据圈将于202 平均水平。云原生数据库成为大势所趋,各个企业也都在向这一趋势靠拢。2020年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据库整体市场的半数以上。 ## 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有0 码力 | 17 页 | 2.02 MB | 1 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现CONFERENCE CHINA ## 数智赋能 共筑未来  ## 云原生虚拟数仓PieCloudDB ## ETL方案设计与实现 邱培峰 拓数派 技术专家 ## 自我介绍 ## 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现1 ! ⑨@ $ ^{-0} $ » $ ^{1/4} $ °α·0 $ ^{1/2} $ $ ^{3/4} $ ! À(5Æ•M4³⁄₄±;T.\•®@~ÃÄ ## 用户期望一个兼顾关系型数仓和公有云优势的产品  ## )±—ÉÊ "\#$%&' ! !"\#$%& '()*(+, -. ! ()*+, -.*)/+01 ! /0&123 ! 456&789: ## 虚拟数仓 ## 系统表——mStore ! ®Zt °± 23_e" /'luvμ b cde%f &&gd%hi ! ¿$g%ÀÁÃÚ &e± ## 数据表0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅Data Computing for New Discoveries 数据计算,只为新发现 ## PieCloudDB:云原生分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 ## 关于我 ## • 18年+基础软件一线经验 • 9年:Unix/Linux应用和内核开发、虚拟化(芯片KVM内核支持)、高速网络开发(NIC驱动、IB、DPDK、OVS offload)等. • 2年:分布式系统(存储和缓存)开发、云计算平台架构 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术大学(专业语音识别). ## PieCloudDB简介 · 一款云原生分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) 但是我们还是可通过foreign data wrapper访问Parquet, etc. ## 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使用缓存,长远来说分布式缓存. • 虚拟数仓:一致性Hash存储缓存文件. • Data Skipping (比如Block Skipping,预聚集,etc). • S3访问通用优化:并行化、预读、异步、Mpp引擎"steal"0 码力 | 24 页 | 2.01 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database社区版安装部署手册V2.10 码力 | 42 页 | 3.71 MB | 1 年前3
Curve核心组件之Client - 网易数帆## Curve核心组件之Client D I G I T A L S A I L 吴汉卿 网易数帆存储团队 ## CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 - 可扩展存储场景:块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储,对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源 [Image](/uploads/documents/5/f/3/3/5f337ad4eaa08759538d4f263528ee8b/p6_1.jpg) ● QEMU、Curve-NBD:上层应用 ● 通过链接curve-client使用curve提供的服务 ● FileManager:提供接口,记录已挂载卷 ● FileInstance:对应一个已挂载的卷 ● LeaseExecu kserver进行通信 ● 前者负责IO请求 ● 后者负责获取复制组(copyset)的leader ● MDSClient:负责与MDS交互,挂卸载卷、获取元数据信息 ## CLIENT上层应用 ## QEMU: 实现了QEMU block与Client的对接层 向cinder/glance提供了Python API https://github.com/opencurve/cur0 码力 | 27 页 | 1.57 MB | 1 年前3
Curve核心组件之mds – 网易数帆Curve核心组件之 MDS Digital Sal 陈威 网易数帆存储团队 ## 概述 ## Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景:块存储、对象存储、云原生数据库、EC等 - 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多 • 已开源 github主页:https://opencurve0 码力 | 23 页 | 1.74 MB | 1 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100
相关搜索词













