Doris的数据导入机制以及原子性保证Doris 的数据导入事务及原子性保证 杨政国 百度资深研发工程师 Doris Committer 01 Doris简介 导入的问题 02 03 Doris中的导入 使用案例 04 Doris简介 01 • 基于MPP(大规模并行处理)架构的分析型数据库 01 Doris简介 • 性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 频率从天级提升至分钟级 2008 • 进行了通用化改造,开始承 接公司内部其他报表系统 • 助力百度统计成为国内最大 的中文网站分析工具 2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 2013 At-Most-Once 制定 Label 生成策略 • 外部系统需要保证自身的 At-Least-Once,这样就可以保证 导入流程的 Exactly-Once。 程序自身保证 At-Least-Once 多表原子性导入 • 每个表拆分多个任务,并下发BE • BE执行后汇报FE • FE 判断导入多数完成 publish 生效版本 • 后续查询规划时使用新的数据版本 04 使用案例 Exactly Once0 码力 | 33 页 | 21.95 MB | 1 年前3
TiDB 可观测性的设计与实现 陈霜TiDB 可观测性 的设计与实现 – 陈霜 About me ● 陈霜, TiDB Insight R&G Engineer, PingCAP ● chenshuang@pingcap.com ● Github: crazycs520 Agenda ● TopSQL: Bind SQL With CPU Resources ● System Table0 码力 | 39 页 | 3.97 MB | 1 年前3
HBase最佳实践及优化Conference China 2016 中国用户大会 4 HBase的模型特性 Hadoop database and NoSQL database • 基本的数据库操作CRUD • 强一致性 • 无SQL语言支持 • 稀疏的多维映射表 – 列存储 – 只用row key来定位行 – 每行可以有不同的列 – 数据有多个版本(在不同的时间点的快照信息) • 分布式的多层次映射表结构(k • 具有容错特性,能够将数据持久化的非易失性 存储中 – 使用HDFS做底层存储,可利用Hadoop的压缩 Codec等减少空间占用 • 自动水平扩展 – 只需要加入新的结点即可提高存储容量和吞吐量 – 服务器能够被动态加入或者删除(用以维护和升级) – 服务器自动调整负载平衡 5 Postgres Conference China 2016 中国用户大会 HBase的原子性保证 HBase仅保证对行操作的原子性 HBase仅保证对行操作的原子性 • 任何行级的操作是原子的 – 一条记录的Put操作要么完全成功,要么完全失败。 • 操作返回成功(success)表示操作完成 • 操作返回失败(failure)表示操作全部失败 • 超时操作可能是成功也可能失败,但不可能部分成功 – 即使跨column family的行操作也是原子的 • 支持一次性修改多行的API并不保证跨行的原 子性操作 – 一般情况下,API会在结果中分别返回执行成功、0 码力 | 45 页 | 4.33 MB | 1 年前3
Cassandra在饿了么的应用BigTable Dynamo Cassandra概述 Cassandra最初源自FaceBook,集合了Google BigTable面向列的特 性和Amazon Dynamo分布式哈希(DHT)的P2P特性于一身,具有很高 的性能、可扩展性、容错、部署简单等特点。 Cassandra架构关键字 1.Gossip 点对点通信协议,用于集群之间节点交换位置和状态信息 2.Partitioner Key 主键,决定数据行的唯一性 Partitioner 1.Key_part_one,key_part_two共同构成了primary key 2.key_part_one也就是partition key 3.key_part_two就是cluster key Cassandra如何根据partition key决定数据落在哪个节点? 一致性哈希和虚拟节点 一致性哈希和虚拟节点 Replica Replica Strategy Cassandra在多个节点中存放replicas以保证可靠性和容错性。Replica Strategy决定放置replicas的 节点,replicas的数目由复制因子确定,比如通常设置3表示每行数据有三份拷贝,每份数据存储在不同的 节点。 当前可用的两种复制策略: 1.SimpleStrategy 仅用于但数据中心 CREATE KEYSPACE dw WITH0 码力 | 40 页 | 4.95 MB | 1 年前3
PieCloudDB:基于PostgreSQL的eMPP云原生数据库OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential • 多租户隔离 Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t • 数据的局部性优化 (SIMD) • 现代存储技术 • 新硬件的使用 @2022 OpenPie. All rights reserved. OpenPie Confidential 构建新一代云原生存储引擎 • 数据分布和弹性 • 分布式eMPP架构 (一致性Hash) • 本地数据减少高延时的云存储访问 • 减少数据移动 • 扩缩容最少的数据移动 • 数据安全性 • 透明数据加密0 码力 | 45 页 | 1.32 MB | 1 年前3
PieCloudDB 的云原生之路源和弹性保证了虚拟数仓永远在线可用,S3 存储和 跨云灾备能力保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开无限数据计算空间, 更好地赋能业务发展并走向绿色。 降低数仓硬件和管理成本 提升数据计算资源利用效益 坚如磐石 | 高安全 高在线 高可靠 突 破 性 创 新 的 核 心 技 术 出 色 的 数 仓 成 本 效 益 IvorySQL开源数据库社区 PieCloudDB 分布式引擎 IvorySQL开源数据库社区 计算 • MPP o 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 IvorySQL开源数据库社区 计算 • 多租户隔离 • 容量和带宽独立于计算伸缩 • 可按使用量付费 • 高可用/可靠存储 IvorySQL开源数据库社区 事务 • ACID 支持两种隔离级别:读已提交、可重复读 • 扩展性 事务管理器无单点性能瓶颈 • 隔离性 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 事务管理器支持对各类基础设施故障进行自动容错 IvorySQL开源数据库社区 03 用户数据存储 IvorySQL开源数据库社区 构建新一代云原生存储引擎 • Multi-Could0 码力 | 47 页 | 1.80 MB | 1 年前3
PieCloudDB云原生数仓虚拟化之路和弹性保证了虚拟数仓永远在线可⽤,S3存储和跨 云灾备能⼒保证了永不丢数。 数据计算资源按需扩缩容,实现计算资源配置最优化, 提升数仓的敏捷性和弹性,打开⽆限数据计算空间, 更好地赋能业务发展并⾛向绿⾊。 降低数仓硬件和管理成本 提升数据计算资源利用效益 坚如磐石 | 高安全 高在线 高可靠 突 破 性 创 新 的 核 心 技 术 出 色 的 数 仓 成 本 效 益 @2022 OpenPie. All rights OpenPie Confidential 计算 • MPP • 将一个单一计算任务在大量独立的计算机上并行执行。 • 多租户、多集群 • 弹性伸缩:集群大小、集群类型、集群数量 • 隔离性:不同租户、不同负载 • 高并发 • 高可用 • 可按使用量付费 @2022 OpenPie. All rights reserved. OpenPie Confidential • 多租户隔离 Confidential • ACID - 支持两种隔离级别:读已提交、可重复读 • 扩展性 - 事务管理器无单点性能瓶颈 • 隔离性 - 不同租户之间的事务管理器是完全隔离的,不会相互影响 • 容错性 - 事务管理器支持对各类基础设施故障进行自动容错 事务 @2022 OpenPie. All rights reserved. OpenPie Confidential D a t0 码力 | 44 页 | 1.64 MB | 1 年前3
TiDB 开源分布式关系型数据库,扩 容或者缩容过程中对应用运维人员透明。 金融级高可用 数据采用多副本存储,数据副本通过 Multi-Raft 协议同步事务日志,多数派写入成功事务才能 提交,确保数据强一致性有少数副本发生故障时不影响数据的可用性。可按需配置副本地理位 置、副本数量等策略满足不同容灾级别的要求。 钢 实时HTAP 提供行存储引擎 TiKV、列存储引擎 Tiflash 两款存储引擎,Tiflash 通过 Multi-Raft 的评估测试,并把 TiDB 应用于一些非关键的业务场景。 同时TiDB 在国内外包括银行证券,保险,大型制造,电信,能源,电商等企业级市场上拥有大虽商 业客户及落地案例。企业用户对产品的稳定性、可靠性、高性能,安全性以及业务连续性等都有非常严 苛的要求,TiDB 企业版产品为企业用户提供高品质的商业化产品,同时通过企业订阅的交付方式,为 用户带来持续的技术保障,建立针对关键计算和生产环境的技术支撑能力并确保 TiDB 1TiDB Cloud TiDB cloud 是全托管的数据库即服务 【DBaaS) 产品,依托于公有云提供开箱即用的 TiDB 服务。TiDB Cloud 屏蔽 TiDB 数据库部署、运维和性能调优的复杂性,通过界面上几下点击就可以快速创建和管理 TiDB 实例,使用户可以专注于自身业务应用程序的开发,降低总体拥有成本。 公有云服务商 Region 程户VPC0 码力 | 58 页 | 9.51 MB | 1 年前3
如何用 MySQL 构建全方位高可用应用Oracle VM Group Replication MySQL Cluster MySQL 高可用性解决方案 4/16/2017 9 9 . 9 9 9 % 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 5 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 2015,Oracle 和/或其附属公司。保留所有权利。 6 并不仅仅是可靠地存储数据 支持高可用性的各个层 数据的冗余访问路径 数据冗余存储 冗余应用服务器 数据路由 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 7 • MySQL Replication • Shared Storage • Group Replication • MySQL SQL 4/16/2017 8 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 为何进行复制? •将数据库从“主服务器”复制到“从服务器” – 数据的冗余副本奠定了高可用性的基础 – 通过在复制场中进行分布式查询来扩展 主 从 Web/应用服务器 写入和读取 读取 4/16/2017 版权所有 2015,Oracle 和/或其附属公司。保留所有权利。 9 •异步0 码力 | 40 页 | 2.19 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书一趋势靠拢。2020 年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据 库整体市场的半数以上。 1 2 全 球 数 据 圈 预 测 IDC: 3 缺 乏 弹 性 然而,随着数据量的不断攀升,企业对数据仓库的要求也越来越高,在使用过程中,传统 MPP 数据库解决方案迎来 了一系列的瓶颈: 4 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 每周有一个中等计算任务,需要数十个节点 每月有一个大的计算任务,需要数千个节点 无限空间: 灵活伸缩: 资源回收: 这些优势使云原生数据库得以降低计算成本,提供无限丰富的计算资源,实现分钟级的伸缩性和真正的高可用,释放 出数据计算产生更多智能的机会。以下是云原生时代数字企业的典型使用场景: 面对这些不断变化的业务需求和计算任务,企业产生了更高的需求: 充分结合云计算、大规模并行处理技术的云原生虚拟数仓 为计算技术目前经历了三代平台: ①大型机时代;②PC机时 代;和 ③云计算时代。每一代计算平台的变更,都带来了数据计算技术的突破性创新的可能性。随着计算技术从大型 机时代变革为PC机时代,PC机逐渐取代大型机,极大地降低计算门槛,计算资源日渐丰富,数据计算技术突破性创 新。 OpenPie 以 “ Data Computing for New Discoveries ”「数据计算,只为新发现」为使命,旗下云原生虚拟数仓0 码力 | 17 页 | 2.02 MB | 1 年前3
共 108 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11













