PieCloudDB云原生数仓虚拟化之路0 码力 | 44 页 | 1.64 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书the lazy dog. ## 目录 行业背景 3 数据量的爆发式增长 3 数据库的未来在云上 3 传统数仓的痛点 4 云时代的数据处理要求 5 PieCloudDB,云原生虚拟数仓 6 PieCloudDB 产品概述 7 PieCloudDB 产品架构 7 PieCloudDB 产品特性 平均水平。云原生数据库成为大势所趋,各个企业也都在向这一趋势靠拢。2020年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据库整体市场的半数以上。 ## 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有 百上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存在。 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造成用户使用过程0 码力 | 17 页 | 2.02 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践## Apache Doris在美团外卖数仓中的应用实践 ## 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我们提出建议。 ## 数仓交互层引擎的应用现状 目前, Impala(MPP Query Engine)和Apache ORCFile(存储格式,编码和压缩)的技术。 Doris的系统架构如下,主要分为FE和BE两个组件,FE主要负责查询的解析、编译、优化、调度和元数 据管理;BE主要负责查询的执行和数据存储。关于Doris的更多技术细节,可参考其官方文档。 ## Doris的特点: • 同时支持高并发点查询和高吞吐的Ad-hoc查询。 • 同时支持离线批量导入和实时数据导入。0 码力 | 8 页 | 429.42 KB | 2 年前3
数仓ClickHouse多维分析应用实践-朱元## clickhouse数仓应用实践 演讲人:朱元 日期:2019-10-20   Oracle数据平台 - 通过kettle每天定时导出文件至本地 clickhouse数据库 ## 数仓建设  ## 数仓建设-维度表 ### 一 般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) ! [Image](/uploads/documents/a/5/4/5/a5458db7fb86ab4e1f5c1167e010676e/p9_2.jpg) ## 数仓建设-主题事实清单表 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle 数据平台增量同步到 ck 数仓. create table dw_hr.fct_rpt_dc_shop_vender_day ( stat_year Int160 码力 | 14 页 | 3.03 MB | 2 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现CONFERENCE CHINA ## 数智赋能 共筑未来  ## 云原生虚拟数仓PieCloudDB ## ETL方案设计与实现 邱培峰 拓数派 技术专家 ## 自我介绍 ## 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现1 ! ⑨@ $ ^{-0} $ » $ ^{1/4} $ °α·0 $ ^{1/2} $ $ ^{3/4} $ ! À(5Æ•M4³⁄₄±;T.\•®@~ÃÄ ## 用户期望一个兼顾关系型数仓和公有云优势的产品  ## )±—ÉÊ "\#$%&' ! !"\#$%& '()*(+, -. ! ()*+, -.*)/+01 ! /0&123 ! 456&789: ## 虚拟数仓 ## 系统表——mStore ! ®Zt °± 23_e" /'luvμ b cde%f &&gd%hi ! ¿$g%ÀÁÃÚ &e± ## 数据表0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅## OpenPie $ ^{®} $ Data Computing for New Discoveries 数据计算,只为新发现 ## PieCloudDB:云原生分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 ## 关于我 ## • 18年+基础软件一线经验 • 9年:Unix/Linux应用和内核开发、虚拟化(芯片KVM内核支持)、高速网络开发(NIC驱动、IB、DPDK、OVS 2年:分布式系统(存储和缓存)开发、云计算平台架构. • 7年+:数据库内核开发 (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术大学(专业语音识别). ## PieCloudDB简介 · 一款云原生分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) 但是我们还是可通过foreign data wrapper访问Parquet, etc. ## 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使用缓存,长远来说分布式缓存. • 虚拟数仓:一致性Hash存储缓存文件. • Data Skipping (比如Block Skipping,预聚集,etc). • S3访问通用优化:并行化、预读、异步、Mpp引擎"steal"0 码力 | 24 页 | 2.01 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database社区版安装部署手册V2.10 码力 | 42 页 | 3.71 MB | 1 年前3
Curve核心组件之Client - 网易数帆## Curve核心组件之Client D I G I T A L S A I L 吴汉卿 网易数帆存储团队 ## CURVE CURVE是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟存储底座 - 可扩展存储场景:块存储、对象存储、云原生数据库、EC等 • 当前实现了高性能块存储,对接 OpenStack 和 k8s • 网易内部线上无故障稳定运行400+天 • 已开源0 码力 | 27 页 | 1.57 MB | 1 年前3
Curve核心组件之mds – 网易数帆Curve核心组件之 MDS Digital Sal 陈威 网易数帆存储团队 ## 概述 ## Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景:块存储、对象存储、云原生数据库、EC等 - 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行一年多 • 已开源 github主页:https://opencurve0 码力 | 23 页 | 1.74 MB | 1 年前3
共 860 条
- 1
- 2
- 3
- 4
- 5
- 6
- 86
相关搜索词













