!"#$%&′()*+ ;<=4|UVpq >?8|@AB|
|---|---|---|---|---|---|
||!"#$%&|'()\*+-,-.||||
## PART 02 云原生数据库PieCloudDB简介

! 0 码力 |
44 页 |
1.64 MB
| 1 年前 3 数据计算,只为新发现
## PieCloudDB:云原生分布式 虚拟数仓的过去、现在和未来
郭罡 拓数派
## 关于我
## • 18年+基础软件一线经验
• 9年:Unix/Linux应用和内核开发、虚拟化(芯片KVM内核支持)、高速网络开发(NIC驱动、IB、DPDK、OVS offload)等.
• 2年:分布式系统(存储和缓存)开发、云计算平台架构.
• 7年+:数据库内核开发 ( (HAWQ、PG、Greenplum、PieCloudDb).
• 现在负责拓数派的整个研发管理.
• 毕业于中国科学技术大学(专业语音识别).
## PieCloudDB简介
· 一款云原生分布式虚拟数仓
• Data: Shared Storage (S3/HDFS/NAS)
• Meta: Shared on NoSQL (当前是FoundationDB)
• Postgres生态 • 社区版 (免费获取)
· 企业版
· CoC(云上云)版(免费试用)
### PieCloudDB简介 (cont.)
• 2022年10.24发布1.0版本,技术和产品上实现了云原生.
• 计算和存储分离:弹性计算 & 弹性存储.
• 计算和存储都:按需付费.
· 多租户隔离.
· 2023年3.14上公有云(阿里云).
• 更多功能增强
### PieCloudDB简介 0 码力 |
24 页 |
2.01 MB
| 1 年前 3 over the lazy dog.
## 目录
行业背景
3
数据量的爆发式增长
3
数据库的未来在云上
3
传统数仓的痛点
4
云时代的数据处理要求
5
PieCloudDB,云原生虚拟数仓
6
PieCloudDB 产品概述
7
PieCloudDB 产品架构
7
PieCloudDB ,急需一款数据库产品,帮助其最大化利用数据资产,降本增效,进行更智能高效的数据计算。
## 数据库的未来在云上
随着云计算时代的到来,不仅使得计算成本极大地降低,也提供了无限丰富的计算资源,释放出数据计算产生智能的更多机会。早在2019年,Gartner便做出预测:数据库市场的未来在云上 $ ^{2} $ 。在2022年首次发布的《数据库中国市场指南》(Market Guide for DBM 速增长并逐步向云端迁移,未来四年,中国数据库行业向公有云迁移的速度将超过全球平均水平。云原生数据库成为大势所趋,各个企业也都在向这一趋势靠拢。2020年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据库整体市场的半数以上。
## 传统数仓的痛点
很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。MPP 0 码力 |
17 页 |
2.02 MB
| 1 年前 3 CONFERENCE CHINA
## 数智赋能 共筑未来

## 云原生虚拟数仓PieCloudDB
## ETL方案设计与实现
邱培峰
拓数派 技术专家
## 自我介绍
## 邱培峰
拓数派技术专家
ETL解决方案及内核组件研发 jpg)
## PieCloudDB云原生eMPP架构简介
01 存算分离,元数据/缓存/计算/云存储
02 各模块可以独立伸缩,模块间接口统一
πCloudDB eMPP架构
03 每一组计算节点组成一个集群,多集群共享元数据和存储系统
04 计算节点高度并行
05 兼容 PostgreSQL 生态
## PieCloudDB eMPP 分布式架构

## 云原生环境下的 ETL
• 便宜可扩展的对象存储,各系统通用
• 最好的 ETL 就是不需要 ETL,各系统共享同一份底层数据
• PieCloudDB 支持直接读取对象存储上的 parquet 等格式的文件
## 云原生环境下的 ETL
• 为不同类型的查询特化的系统会有不同的存储方式
• 同一份底层原始数据使用不同系统查询会产生 ETL 需求
## 云原生环境下的 ETL 0 码力 |
29 页 |
5.24 MB
| 1 年前 3 ! ⑨@ $ ^{-0} $ » $ ^{1/4} $ °α·0 $ ^{1/2} $ $ ^{3/4} $
! À(5Æ•M4³⁄₄±;T.\•®@~ÃÄ
## 用户期望一个兼顾关系型数仓和公有云优势的产品

## )±—ÉÊ
456&789:
## 虚拟数仓
## 系统表——mStore
! ®Zt °± 23_e" /'luvμ b
cde%f &&gd%hi
! ¿$g%ÀÁÃÚ &e±
## 数据表 — Ostore
! ...† $`&da" ÇOEÈÉFop $3..
! Ês ¹
## 分布式锁
$$ +,-./ $$
#### 0 码力 |
43 页 |
1.14 MB
| 1 年前 3 0 码力 |
42 页 |
3.71 MB
| 1 年前 3 # Ceph分布式存储实战
Ceph中国社区 著
十余位专家联袂推荐,Ceph中国社区专家撰写,权威性与实战性毋庸置疑。
系统介绍Ceph设计思想,三大存储类型与实际应用,高级特性,性能测试,调优与运维。

(云计算与虚拟化技术丛书) (云计算与虚拟化技术丛书)
Ceph分布式存储实战
Ceph中国社区著
ISBN: 978-7-111-55358-8
本书纸版由机械工业出版社于2016年出版,电子版由华章分社(北京华章图文信息有限公司,北京奥维博世图书发行有限公司)全球范围内制作与发行。
版权所有,侵权必究
客服热线:+86-10-68995265
客服信箱:service@bbbvip.com 官方网址:www.hzmedia.com.cn cn 新浪微博 @华章数媒 微信公众号 华章电子书(微信号:hzebook)
本书赞誉
序
前言
第1章 初识Ceph
1.1 Ceph概述
1.2 Ceph的功能组件
1.3 Ceph架构和设计思想
1.4 Ceph快速安装
1.4.1 Ubuntu/Debian安装
1.4.2 RHEL/CentOS安装
1.5 本章小结
第2章 0 码力 |
- 页 |
13.97 MB
| 1 年前 3 ## 新一代云原生分布式存储—Curve 上
D I G I T A L S A I L
李小翠
网易数帆存储团队
Digital Sail
Digital
Digital
Digital
Digital
Digital
Digital
Digital
01 分布式存储介绍
存储的发展 | 分布式存储的分类 | 分布式存储的要素
02 Ceph 9/p3_5.jpg)
分布式存储
大型主机
成本高
单点问题
扩容困难
小型主机
容量有限
各存储设备通过网络互联
大规模
弹性扩容

云存储
底层构建在分布式存储之上
云的概念
成本:共用基础设施
[Image](/uploads/documents/0/6/8/0/0680fe0064822f86eb9b8c4d1e285449/p3_9.jpg)
云原生存储
底层构建在分布式存储之上
云原生的概念:
易用性:跨平台,超融合,弹性
## 分布式存储的分类
## 按照各种应用场景所需的存储接口分类
## 对象 存储
接口为简单的 Get、PUT、DEL 和其他扩展
## 文件存储
0 码力 |
29 页 |
2.46 MB
| 1 年前 3 # 云原生时代分布式链路 追踪实践
曲赛 (saiqu)
2021-08
## 微服务架构的困境

## 故障定位难
日志分散
定位过程“击鼓传花”
## 性能分析难
跨端性能瓶颈分析繁杂
## 链路梳理难
极高的沟通和交接成本 otelgrpc instrumentation核心实现
### 天机阁2.0 简介
天机阁2.0是遵循OpenTelemetry标准的,为各业务或平台提供分布式追踪,监控,日志,多维染色,容量评估,架构治理等能力的云原生可观测性系统。
- 分布式追踪
- 日志
- 服务监控
- 火焰图
- 存储监控
- SDK监控
- CI/CD监控
- 发布变更
- 告警历史 [Image](/uploads/documents/e/4/5/6/e4569d6bfeb80989250373e3aca74497/p13_1.jpg)
标准规范: OpenTelemetry/OpenTracing
云原生:可观测性
### 天机阁2.0 实践
 0 码力 |
17 页 |
2.47 MB
| 2 年前 3 ## Apache Doris在美团外卖数仓中的应用实践
## 序言
美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我们提出建议。
## 数仓交互层引擎的应用现状
目前, 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hadoop/Spark分布式大数据技术生态来构建数据仓库,然后对数据进行适当的分层、加工、管理。而在数据应用交互层面,由于时效性的要求,数据最终的展现查询还是需要通过DBMS(MySQL)、MOLAP(Kylin)引擎来进行支撑。如下图所示:
![Image](/uploads/documents/d/d/5/0/dd5 0 码力 |
8 页 |
429.42 KB
| 2 年前 3
|