Greenplum Database 管理员指南 6.2.1管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据,只存储 用于维持系统运行的全局信息,比如,对象定义信息,统计信息等,Master 非常重要, 如果 Master 丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 Master目前采取的是Active-Sta 持人员进行评估, 每个 Instance 所在主机配置的 Primary 越多,响应并发的能力越弱,但单个任务的 处理能力越强(这也不是绝对的,当 Primary 数量多到,即便运行单个任务时都会出 现资源争抢,可能运行的效率就会下降)。实际上,每个计算主机的 Primary 个数, 还与其他资源有关,如,磁盘性能,网络性能,内存容量。 内联网络:Interconnect Greenplum 会激活/唤醒对应的 Mirror 取代原有的 Primary。在采取相应 的措施将失败的 Primary 恢复到健康状态之前,该 Primary 一直保持失败状态。失 败的 Primary 可以在系统处于运行状态下被恢复回来。恢复进程仅仅复制失败期间发 生变化的增量差异,当然,如果失败时间太久或者因失败的 Instance 文件有损毁, 将需要全量恢复或者需要选择全量恢复。在 6 之前的版本,GP 的 Primary0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享发起一个请求时,每个Instance都将FORK子进 程并行工作; • 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query 下的文件数非常多,将这些目的档重分布到新扩展的节 点时间会很长 – 系统表(pg_class,pg_attribute)太大,影响系统工作效率 – 系统元数据检查pg_checkcat等工具运行时间比较长 物理模型经验分享 物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 耗内存SQL,如window function OOM的后果 – SQL执行错误,并且可能影响当时正在执行的SQL都会报错 – 如果过多的侵占到OS的内存,可能导致Instance down – 系统运行缓慢 – 其它异常 OOM-解决办法 优化查询以减少内存的消耗 在资源队列中降低查询的并发数 降低GP集群中单节点的Segment Instance数量0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum 精粹文集的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 模式进行单个实例的访问)。正因为如此,甚 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 最 后, 需 要 强 调 的 是:Greenplum 绝 不 仅 仅 只 是 简 单 的 等 同 于 “Postgresql+interconnect0 码力 | 64 页 | 2.73 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................ 8 高效运行时 ................................................................................................. 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署、多 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步 时间,提升文件读写性能。 • 内存分级扩展 etMem:新增用户态 swap0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台客户都很有帮助。Greenplum 解决方案的架构设计目的是管理 非常复杂的查询,以及为符合 ANSI 标准的 SQL 提供强有力的分析改进。通过自动对数据进行分区和并行运行查询,它让 服务器群集能够以单一数据超级计算机的方式运行,且性能比传统数据库或其他同类平台高出数十甚至数百倍。其多种分 析扩展功能支持 ANSI SQL,并通过封装扩展提供多种内置语言和附加功能。Greenplum 能够管理各种规模的数据卷,数 Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Communications • 业务问题 • CDR安全合规性和分析 • 已有方案 • Oracle • 数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据引擎的Sun数据仓库设备,Reliance可以在快速发展,用户需求不断增加 的数据环境中达到预期的高度响应能力。” - Reliance 的副总裁和主管(决策支持系统)Raj Joshi 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN X4600一台,4路dual-core CPU 共8core,32GB – 存储平台:NetApp一台 – 网络平台:千兆网络 – 软件平台:RedHat linux + mysql – 应用软件:基于Apache的PHP程序 • 现有运行现状 – 随着数据量的不断增长,应用在现有平台上的运行效率极度恶化。 – 实际运行采样,9月份月度数 实际运行采样,9月份月度数据处理时,该应用耗时42小时;经过两个月 的数据累加,到11月份月度数据处理时,该应用耗时达到65小时。 • 测试运行平台 – 服务器平台:SUN X4500两台,每台含2路dual-core CPU 共4core, 16GB;SUN X4200一台,2路dual-core CPU 共4core,8GB – 存储平台:每台X4500中各48块500GB硬盘,共96 * 500GB – 网络0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 编译安装和调试首先下载 Greenplum 源代码 $ git clone https://github.com/greenplum-db/gpdb Greenplum Database 编译和运行依赖于各种系统库和Python库。需要先安装这些依赖: $ sudo yum groupinstall 'Development Tools' # GCC, libtools etc $ sudo 初始化Greenplum 集群 $ source env.sh $ gpinitsystem -c gpinitsystem_config -a # step 5. 初始化成功后,运行下面命令验证系统状态 $ psql -l $ gpstate # step 6. 简单测试 $ createdb test $ psql test test# CREATE TABLE QD)和调试单节点的PostgreSQL 非常类似。 通常遇到解析、优化、调度相关问题时,需要调试QD。 下面以一个例子介绍如何调试 Greenplum QD 进程。 启动两个窗口,一个运行psql,一个运行 lldb psql窗口 lldb/gdb窗口 $ psql test test> SELECT pg_backend_pid() 12922 psql>0 码力 | 15 页 | 2.07 MB | 1 年前3
深度揭秘Greenplum开源数据库透明加密连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 运行模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA • 管理数据库 • 业务审计 System Admin • 管理集群 • 数据备份恢复 管理模式 GPDB的数据安全 用户 • 连接数据库 • 运行业务 DBA0 码力 | 48 页 | 10.19 MB | 1 年前3
Greenplum 6新特性:
在线扩容工具GPexpand剖析初始化时的值,对于一个被promote成primary的mirror节点,role 为’p’,preferred_role为’m’ mode 主从同步状态,’s’同步,’n’不同步 status 运行状态,’u’在线,’d’不在线 port 该节点的运行端口 hostname 节点的hostname address 通常和hostname相同 datadir 该节点的数据目录 Greenplum 集群部署 Greenplum0 码力 | 37 页 | 1.12 MB | 1 年前3
Greenplum 介绍2015 年开源以来,更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿 网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 接口进行数据分析,大大降低了数据分 析的门槛;MADlib 内建于数据库内,使用 MPP 的优势,提高了分析的效率;MADlib0 码力 | 3 页 | 220.42 KB | 1 年前3
共 14 条
- 1
- 2













