Greenplum Database 管理员指南 6.2.1......................................................................................... - 225 - 内置函数和运算符 ............................................................................................ ,分为两组, 每台机器的镜像分散在对面组的机器上。关于如何选择镜像模式,以及如何分散镜像关 系,可以根据用户的实际需求进行评估和实施。 目前,编者的一键式集群配置安装初始化命令已经内置了两种镜像模式,分别为 RING 和 PAIR。RING 是一种带有环状关系的镜像模式,典型的特征是,一组机器形成 对等的环,环上的每台机器,其对应的 Mirror 会散落在后面的一台或者多台机器上, 需要注意的是,GRANT ALL IN SCHEMA 语法只是将当前状态下 Schema 内现有 的对象进行授权,之后创建的对象不包含在本次授权中,从原理上来说,GRANT ALL IN SCHEMA 语法是一种内置的循环授权的方式,并不是在 Schema 上保存权限信息。 模拟 Row 级别的权限控制 GP 到目前的 6 版本为止,还不支持 Row 级别的权限控制。Row 级别的权限控制可0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 据量从数 GB 到数 PB 不等。 pivotal 在开发时采用的是以社区 / 客户为焦点的开发模式。客户可通过多种开放可用的方法对总 体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon 其他功能特性 Pivotal Greenplum 5 支持多种新的内置数据类型,并针对现有数据类型进行了改进。新增的类型包括符合 RFC 4122 和 ISO/IEC 9834-8:2005 标准的通用惟一标识符 (UUID)。JSON 类型可用于存储和处理不限长度的可变 JSON 数据,新 增了用于查询和解析 JSON 记录的内置函数。与 JSON 类似,HSTORE 可用于在数据库中存储和查询半结构化数据。0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum不仅可以作为全能的分析化平台,也能满足交易型业 务场景,能够处理多种并发混合工作负载,专为满足在多结构数据环境中进行实时分析的需求而设计。 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 白皮书 5 白皮书 | 5 欧拉开源操作系统 欧拉开源操作系统(openEuler, 简称“欧拉”)从服务器操作系统正式升级为面向数字基础设施的操作系统,支持服务 器、云计算、边缘计算、嵌入式等应用场景,支持多样性计算,致力于提供安全、稳定、易用的操作系统。通过为应用 提供确定性保障能力,支持 OT 领域应用及 多处理器架构,未来还会扩展 PowerPC、SW64 等更多芯片架构支持,持续 完善多样化算力生态体验。 openEuler 社区面向场景化的 SIG 不断组建,推动 openEuler 应用边界从最初的服务器场景,逐步拓展到云计算、边 缘计算、嵌入式等更多场景。openEuler 正成为覆盖全场景的操作系统,将发布面向边缘计算的版本 openEuler 21.09 Edge、面向嵌入式的版本 openEuler0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集16-11-22 下午3:38 2 由此,业界认识到对于海量数据需要一种新的计算模式来支持,这种 模式就是可以支持 Scale-out 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 下午3:38 Greenplum 精粹文集 7 Greenplum 采用 Postgresl0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 最佳实践分享8以上版本增加,防止临时空间SPILL档数过多导致空间急剧增长 视图gp_workfile_usage_per_query可以实时监控每个query正在使用的临时空间大小 注:在GP4.3中内置了这个view,在GP4.2中需要执行./share/postgresql/contrib/gp_workfile_mgr.sql 临时空间的监控和管理 GPDB 支持的Join算法主要有: 检查當前所有设备IO,CPU使用情況: – CPU是否繁忙(gpssh –f allhosts -e“uptime”) – IO是否繁忙,Wait是否较高 – 是单一服务器繁忙还是所有服务器繁忙 检查数据库狀态 – gpstate检查是否有实例down机 – 检查pg_log是否有OOM錯誤 检查当前SQL任务 – 确定当前系統是否有SQL能执行成0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum机器学习⼯具集和案例Apache上的开源项⽬目 ● 发布了了 6 个版本 ● Apache 顶级项⽬目 Pivotal Greenplum PostgreSQL 基于SQL的数据库内置的机器器学习库 2017.thegiac.com 创始于2011年 EMC/Greenplum Joe Hellerstein from Univ. of California, Berkeley 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 String 聚集 psql … 执⾏行行流程0 码力 | 58 页 | 1.97 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现 —— 数据集市 • 5 访问接口的封装 —— API接口服务器 • 6 最终数据的显示 —— 前端界面 • 7 结果数据的交互 —— OLTP,趋势分析 • 8 OLAP数据流转 —— dbsync平台 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群,共用 422 个postgresql实例 Ø 实例分布成为 28 个Greenplum集群或postgresql单实例 • 服务器资源 Ø 三大Greenplum集群,共使用 51 台服务器资源 Ø 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 27 Greenplum运维体系 数据库备份 • 配置与结构备份 Ø 多机房级联备份 Ø Greenplum在本机进行第一次备份 Ø 备份通过rsync传输到同机房ETL服务器 Ø 各机房ETL服务器在备份到备份服务器 • 结果数据备份 Ø Greenplum集群与postgresql集市备份 Ø 结果数据csv文件备份 Ø 结果数据到备份postgresql实例 28 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完 全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum介绍Greenplum架构: Master介绍 Master服务器是外面用户访问greenplum的入口。用户 都是连接master服务器的,对于外部用户来说,他并不 与segment host服务器发生任何关系,外部用户的网络 只需要与master服务器连通就可以了,不需要访问 segment host服务器。 所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 被改造过的 PostgreSQL数据库,它包含了整个分布 式数据库中的 所有元数据,如表结构定义、索引等等。但其并不存储 实际的数据,实际的数据是存储在segment 数据库 的。 master服务器接受从用户发来的连接,并做用户验证, 接收用户发来的sql,生成分布式执行计划,再把分布 执行计划分发到segment上执行,接收segment返回的 数据,最后返回给用户。 Greenplum架构:0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum上云与优化支持(B-tree、Bitmap) 不支持 2016Postgres中国用户大会 推荐应用架构 应用服务器 ECS VPC ApsaraDB for GP 主节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 子节点 应用服务器 应用服务器 阿里云服务 阿里云CDP服务 应用服务器 Tableau 应用服务器 2016Postgres中国用户大会 ApsaraDB for GP的定位0 码力 | 26 页 | 1.13 MB | 1 年前3
共 18 条
- 1
- 2













