Greenplum Database 管理员指南 6.2.1.................................................................................... - 151 - 视图的依赖关系 .................................................................................................. 的自动 FailOver 效果,编者也实现了自动 切换命令,当 Master 出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 版本中,系统表中记录 Mirror 关系 的系统表设计已经发生了重大变化。 Mirror 使得数据库查询在 Primary 不可用时可以自动切换到 Mirror 上。为了 配置 Mirror,GP 系统需要有足够多的主机,从而可以确保作为冗余角色的 Mirror 总是位于与 Primary 不同的 Host 主机上,否则,一旦主机发生宕机故障,位于同一 主机上互为配对关系的 Primary 和 Mirror0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案行业商务智能解决方案的实例 政府 电信 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 •0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum开源MPP数据库介绍Confidential │ ©2022 VMware, Inc. 3 Greenplum简介:什么是Greenplum? 基于PostgreSQL、开源、分布式MPP、ACID完备、为OLAP优化的关系型数据仓库。 https://greenplum.org https://github.com/greenplum-db/gpdb Confidential │ ©2022 VMware, Inc Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n) Ø Slice q Motion把计划切片 q 每一片叫Slice,每一个Slice的实体是一组存在于各个节点上的进程 Ø Locus Ø 数据的分布模式 Confidential │ ©2022 VMware, Inc. 12 分布式计划举例 Confidential │ ©20220 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 精粹文集为它贡 献力量。 2) 为什么是 Postgresql 而不是其它的? 我想大家可能主要想问为什么是 Postgresql 而不是 Mysql ?(其实, 还有很多开源关系型数据库,但相比这两个主流开源库,实在不在 一个起跑线上)。我们无意去从技术点上PK这两个数据库孰优孰劣, 我相信它们的存在都有各自的特点,它们都有成熟的开源社区做支 持,有各自的庞大的 fans 群众基础。我们认为,Greenplum nothing 无共享架构,从而更将这种并行计算能力发挥到极致,除此之 外,MPP 采用两阶段提交和全局事务管理机制来保证集群上分布式事 务的一致性,Greenplum 像 Postgresql 一样满足关系型数据库的包括 ACID 在内的所有特征。 从上图可以看到,Greenplum 的最小并行单元不是节点层级,而是在 实例层级。安装过 Greenplum 的同学应该都看到每个实例都有自己 的 Postgresql ·分布式存储数据在多个节点服务器上 ·采用分布式并行计算框架 ·支持横向扩展来提高整体的计算能力和存储容量 ·都支持 X86 开放集群架构 但两种技术在数据存储和计算方法上,也存在很多显而易见的差异: ·MPP 按照关系数据库行列表方式存储数据(有模式),Hadoop 按照文件切片方式分布式存储(无模式)。 ·两者采用的数据分布机制不同,MPP 采用 Hash 分布,计算节点 和存储紧密耦合,数据分布粒度在记录级的更小粒度(一般在0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumSQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum Greenplum 社区版同时能够支持 X86 和 ARM 架构的芯片,支持主流品牌的芯片和操作系统,也将支持越来越多样 化的芯片和操作系统,特别是中国的本地化的芯片和操作系统: 图 1:Greenplum 纯中立支持主流芯片和操作系统 另外随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Greenplum 目前不但可在国外 的 Amazon Web 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上 Greenplum。 图 2:Greenplum 不受限于基础架构的软件架构 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum扩展规划 六 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema 数据架构示意图 19 Greenplum现状说明 三大Greenplum集群关系 • 数据来源不同 • 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同,多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议r在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复 子性, 先把Undo Log写入日志文件。Undo Log记录修改数据对象的旧值(Before Image, BFIM) Solution: Logging 15 缓冲区管理策略和事务恢复的关系 Force No-Force Steal Undo / No-Redo Undo + Redo (performance: fastest recovery: slowest) TMGXACT 分布式事务结构体 • 分布式事务id • 分布式事务管理器启动的时间戳 • 活跃分布式事务中最小的事务id,分布式快照 • session id 34 Greenplum的两阶段提交函数调用关系 35 ● 事务的实现原理和Write Ahead Log(WAL) ● 分布式事务和两阶段提交的原理 ● Greenplum两阶段提交协议的实现 ● Greenplum两阶段提交协议的优化0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum机器学习⼯具集和案例集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 PageRank 2017.thegiac.com Greenplum 集群规模: ● 1 主 ● 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K 新会话 建模过程 对API请求结合超时和 K-means聚集处理理 验证聚 类结果 2017.thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data sample进⾏行行分析, DCA闲置0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 私有云 公有云 pivotal.io/cn 白皮书 6 © Copyright 2017 、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 介绍需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL0 码力 | 3 页 | 220.42 KB | 1 年前3
共 15 条
- 1
- 2













