高可用分布式流数据存储设计-李玥## 高可用分布式流数据存储设计 李玥 京东集团 技术架构部 架构师 ## TGO鲲鹏会 汇聚全球科技领导者的高端社群 全球12大城市 850+高端科技领导者 使命 Mission 为社会输送更多优秀的 科技领导者 ## 愿景 Vision 构建全球领先的有技术背景 优秀人才的学习成长平台  ## 自我介绍 ## 李玥 京东集团 技术架构部 架构师 负责主导设计新一代京东消息中间件系统,专注于流数据的一致性分发和可靠存储、分布式实时计算和高可用分布式系统架构等技术领域。 从事互联网研发、架构10余年,曾在浪潮集团、当当网等公司从事架构相关工作。2017年加入京东,期间提升京东商城相关系统的性能和吞吐量数倍。 能与开源。 Why 有什么用? What 如何定位?如何融入生态系统? How 如何实现?如何优化? ## 目录 ## WHY ## 为什么需要流数据存储? ## 那些年的服务 单体应用 烟筒式 SOA 微服务 ## 这些年的数据 Services ## ☐ → ☐ Data Hive ES HBase HDFS KV ## 我们的愿景 Services ## O0 码力 | 36 页 | 6.02 MB | 2 年前3
云时代下多数据计算引擎的设计与实现## 云时代下多数据计算引擎的设计与实现 郭罡 CTO 拓数派(OpenPie) ## 关于拓数派 - 成立于2021年,以 “Data Computing for New Discoveries” 「数据计算,只为新发现」为使命。 - 核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2,ClickHouse等)研发和产业经验. - 产品 πDataCS:多计算引擎,包括 πDataCS:多计算引擎,包括自研分布式数据库PieCloudDB,自研分布式向量数据库等. • PieCloudDB 存储底座是各计算引擎的载体. • 已落地或者正在落地:IoT、金融、新能源、医疗等行业. ## 云时代 多数据模态支持 广泛的生态支持 ## 数据计算 “一份数据,多引擎计算”的述求 让数据流动起来 ## PieCloudDB 简介 ## 一 款云原生分布式 ## 分析型数据库 • 元数据、用户数据、计算完全分离 元数据、用户数据、计算完全分离. - 用户数据(code name: Janm)支持 S3/HDFS/Posix. • 架构:Share Nothing on share storage. • 丰富的外围产品支持. ## Postgres生态 • 将来会支持单机和HTAP. ## 软件交付版本 (最新版本:v2.11) • 社区版 · 企业版 · CoC(云上云)版 ## PDB数据库产品体系0 码力 | 15 页 | 3.09 MB | 1 年前3
Curve文件系统元数据持久化方案设计元数据持久化 • 前言 • Raft Log • Raft Snapshot - 持久化文件 - key value pairs - 其他说明 实现 • 1、inode、entry 的编码 • 2、KVStore • Q&A • 单靠 redis 的 AOF 机制能否保证数据不丢失? • redis 的高可用、高可扩方案? • redis + muliraft • 参考 • redis 中哈希表实现的优点? ## 前言 根据之前讨论的结果,元数据节点的架构如下图所示,这里涉及到两部分需要持久化/编码的内容: • Raft Log: 记录 operator log • Raft Snapshot:将内存中的数据结构以特定格式 dump 到文件进行持久化 copyset-2 copyset-1 ,用于标识该文件为 curvefs 元数据持久化文件| |version|4|文件版本号(当文件格式变化时,可以 100% 向兼容加载旧版持久化文件)| |size|8|键值对数量| |key\_value\_pairs|/|键值对(当 size0 码力 | 12 页 | 384.47 KB | 1 年前3
云原生数据库 PieCloudDB eMPP架构设计与实现## 第十三届中国数据库技术大会 DATABASE TECHNOLOGY CONFERENCE CHINA 2022 ## 数据智能 价值创新   ## 云原生数据库 PieCloudDB eMPP 架构设计与实现 郭罡 拓数派CTO ## 关于拓数派(OpenPie) • 成立于2021年,以 “Data Computing for New Discoveries” 「数据计算,只为新发现」为使命。 • 现Pre-A轮融资,已完成数亿元融资。 - 核心团队来自于各大厂名校,有丰富的数据库(Greenplum,DB2 分布式系统(SQL/NoSQL/存储) • 最近 7+ 年一直从事开源分布式数据库开发 ## 元CloudDB 一个eMPP 云原生分布式SQL数据库 一个云原生实时大数据平台基座 愿景:安全可靠 使用简单 功能齐全 性能极致 ## 传统分布式MPP架构痛点 缺乏弹性 业务使用不灵活 成本高昂 集群固定,资源利用率低 木桶效应 扩缩容难 数据孤岛 元数据和用户数据跨集群访问困难 运维成本 运维和DBA0 码力 | 31 页 | 1.43 MB | 1 年前3
大模型时代下向量数据库的设计与应用大模型时代下向量数据库的设计与应用 msup $ ^{®} $ | ARCHNOTES 架構 ## 个人简介  邱培峰 拓数派向量数据库负责人 目前在拓数派负责向量数据库PieCloudVector产品,聚焦于大模型与大数据领域。拥有多 年数据库内核研发和配套解决方案架构经验,在加入拓数派前曾就职于开源大数据平台Greenplum团队,担任外部数据源访问框架,对象存储访问扩展,ETL工具等产品模块的研发,并曾参与PostgreSQL多个版本的代码贡献,拥有丰富的存储模块核心开发和性能优化等实践经验。 ## 拓数派:大模型数据计算系统先行者 - 拓数派(OpenPie)是立足于国内的基础数据计算领域高科技创新机构; 拥有强大的数 拥有强大的数据库内核研发团队、数据科学团队和数字化转型团队; - 国内虚拟数仓和eMPP技术提出者,不断在数据计算引擎方向进行创新,全面拥抱AI技术趋势。 # 虚拟数仓 拓数派/数仓虚拟化 PieCloudDB产品技术 数企虚拟化由拓数派(杭州拓数派科技发展有限公司,又称“OpenPie”)于2023年3月正式提出。 数仓虚拟化 $ ^{[1]} $ 可将物理数仓整合到云原生数据计算平台 $ ^{[2]}0 码力 | 28 页 | 1.69 MB | 1 年前3
数据迁移## 数据迁移 ## 存量 MySQL 迁移到 TiDB 服务 UDTS 产品支持 MySQL(5.5/5.6/5.7/8.0) 到 TiDB 的全量数据迁移,及增量数据同步。可协助用户在不停机的情况下轻松将业务从 MySQL 切换至 TiDB。 ## 自建 TiDB 迁移到 TiDB 服务 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 服务。用户在源 TiDB 开启 Pump, Drainer 可进行数据增量同步。UDTS 与源端 Pump, Drainer 一起可协助用户在不停机的情况下轻松将业务从自建 TiDB 切换至 TiDB 服务。 ## 为 TiDB 服务建立 MySQL 从库 UDTS 产品支持 TiDB 全量数据迁移至 MySQL 数据库。用户在 TiDB 服务上开启 Binlog 可将数据增量同步至下游 MySQL。UDTS 与 TiDB Binlog Binlog 服务一起可协助用户轻松建立 MySQL 从库。 ## 为 TiDB 服务建立 TiDB 从库 UDTS 产品支持 TiDB 全量数据迁移至 TiDB 数据库。用户在源 TiDB 服务上开启 Binlog 可将数据增量同步至下游 TiDB。UDTS 与 TiDB Binlog 服务一起可协助用户轻松建立 TiDB 从 库。0 码力 | 2 页 | 42.01 KB | 1 年前3
Curve设计要点新一代分布式存储系统 Curve 小翠 网易数帆存储团队 ## 概述 ## Curve 是高性能、高可用、高可靠的分布式存储系统 • 高性能、低延迟 • 可支撑储场景:块存储、对象存储、云原生数据库、EC等 - 当前实现了高性能块存储,对接OpenStack和K8s 网易内部线上无故障稳定运行一年多,线上异常演练 • 已开源 github主页:https://opencurve.github 02 总体设计 基本架构 | 数据组织形式 | 拓扑 | IO流程 03 系统特性 高性能 | 高可用 | 自治 | 易运维 | 高质量 04 近期规划 Curve的近期规划 ## 背景 • 多个存储软件:SDFS、NEFS、NBS • 已有的开源软件:Ceph • 不能胜任性能、延迟敏感的场景 • 异常场景抖动较大(比如慢盘场景) 去中心节点设计在集群不均衡的情况下需要人工运维 基于通用分布式存储构建上层存储服务 01 背景 为何从0到1开发Curve 02 总体设计 基本架构 | 数据组织形式 | 拓扑 | IO流程 03 系统特性 高性能 | 高可用 | 自治 | 易运维 | 高质量 04 近期规划 Curve的近期规划 ## 基本架构 ## • 元数据节点 MDS 管理元数据信息 收集集群状态信息,自动调度 将核心 Node 库解耦并允许生态系统的分布。 2. N-API 是设计精美的绑定API。 3. Ben Noordhuis 和 Bert Belder 构建了 libuv。 4. Mikeal Rogers 组织了管理活动和社区。 5. Fedor Indutny 这允许用户运行不可信的实用程序(例如就像一个 linter) - 不允许任意本地函数绑定到V8中 所有的系统调用都是通过消息传递完成的(原BoFF序列化) 有两个本地函数: send 和 rev。 这既简化了设计,又使系统更易于审核。 Deno Process (Privileged) V8 VM (Unprivileged) Timers File System Timers Network Dispatcher0 码力 | 28 页 | 767.84 KB | 2 年前3
共 1000 条
- 1
- 2
- 3
- 4
- 5
- 6
- 100
相关搜索词
高可用分布式流数据存储流数据存储分布式系统Append onlyJournalQJournalKeeper多数据计算引擎向量化执行引擎分布式数据库云原生HTAP元数据持久化Raft一致性算法MultiRaft键值对Redis云原生数据库eMPP架构分布式优化器弹性计算资源Exactly Once语义向量数据库大模型K-Nearest Neighbor嵌入式PieCloudVectorUDTS数据迁移增量同步TiDBMySQLCurve高性能分布式存储multi raft开源数据导向设计数据转换程序变换函数式编程性能优化KubeBrainetcd分片消息顺序水平扩展GYPPromiseNode_modules安全性require函数













