Greenplum Database 管理员指南 6.2.1................................................................................. - 39 - GP 的客户端应用程序 .............................................................................................. - 40 ..................................................................................... - 41 - DB 应用程序接口 ................................................................................................ 架构的系统表频繁不一致的缺陷。 GP 是基于 PostgreSQL 发展而来,用户端可以如同访问 PostgreSQL 那样与 GP 进行交互。可以通过 PostgreSQL 客户端程序(如 psql、pgAdminIII)和应用程序 接口(APIs(如 JDBC、ODBC))连接 GP。不过,GP 在 5 版本和 6 版本中,因为 PostgreSQL 版本的不断合并,有不少系统表的发生了变化,所以,原有适用的客户0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) 分析功能,还是以大规模并行方式构建数据模型,都可以实现。Greenplum 5 支持适用于数据挖掘和数据科学工作的最全面、 最先进的分析程序包和扩展。 Greenplum 5 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程序。 • Greenplum 5 中支持的 Python 语言算法库和程序包有:Tensorflow、NumPy、SciPy、scikit-learn、Pandas、 NLTK、P 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地理信息 系统 (GIS) 对象存储在数据库中。Pivotal Greenplum PostGIS 扩展包括支持使用基于 GiST 的 R 树空间索引和函数分析和处0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum 精粹文集资源。长远来看还可 降低阵列卡和磁盘的故障率。 ·行存还是列存: 列存储有更高的压缩率,合适于聚合运算,但不合适于宽表。一个 数据库中不应只有一种存储方式,每张表应依据实际情况设计存储 方式。 ·临时表: 对于程序中所使用到的临时表和中间表,上述 3 点规则同样适用。 ·分区: Greenplum 的分区原理与其他数据库无异。表的子分区个数不宜过 多,子分区粒度不易过细,子分区之间无需均匀。 ·索引: 在 操作系统告警、空间使用率等都是应关注的重点。这些都可通过厂商 提供的工具,编写监控程序,SNMP 协议对接企业监控平台等手段提 升日常巡检和监控的效率。 针对 Greenplum,DBA 需要关注重点: ·Greenplum 的状态:Standby master 的同步状态往往容易被忽略。 通过监控平台或者脚本程序,能够及时告警则最好。 ·系统表:日常系统表维护(vacuum analyze),在系统投产时就 Big Date2.indd 32 16-11-22 下午3:38 Greenplum 精粹文集 33 ·统计信息收集:统计信息的准确性影响到运行效率,用户表应该及 时收集统计信息。在应用程序中增加手机统计信息的处理逻辑,通 过脚本定时批量收集统计信息,或者两者相结合。针对分区表日常 可按需收集子分区的统计信息,可节省时间提升效率。 ·表倾斜:表倾斜情况应该 DBA 的关注点之一,但无需每天处理。0 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系 环境创建与部署 • 部署注意点 Ø 资源要充足(ETL,管理节点,数据节点,数据集市) Ø 万兆网络 (网络环境对功能和性能的影响) Ø 节点规划 Ø 全量,id列增量,date列增量 Ø datax,csv,load,copy Ø 数据同步结果确认与显示 • 数据同步方式 Ø gpfdist+外部表 : UMGW大表 Ø db_sync同步程序 : 底层库 + 同步逻辑 + Django界面 Ø 临时同步需求: datax , copy 29 Greenplum运维体系 数据库数据传输与同步-db_sync 30 Greenplum运维体系 Ø避免频繁执行高内存消耗的会话 Ø避免出现死锁 Ø可以在适当的时候执行 vaccum 操作 Ø避免直接在Greenplum执行消耗session会话的操作 Ø尽量不创建索引 • 上线与调度规范 Ø上线的程序,必须要经过测试,才可以生产使用 Ø调度程序需考虑每个任务的前后关系,时间富裕 Ø避免因为过于追求并行度,对多个任务造成相互影响 38 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励 “ Greenplum能够让企业在两 个方面同时达到最满意的效果: 供程序员使用的MapReduce以 及供数据库管理使用的 SQL。” Monash Research 的Curt Monash 分析师褒奖 “ Greenplum正在通过新式技术来 推动并行数据库的发展,从而满足互 者开始的规模太小 • 在商用硬件上通过线 性、经济的方式扩展 Greenplum数据引擎体系 主机 网络互连 并行查询规划和调度 区段服务器 (处理和存储) SQL 查询和 MapReduce程序 MPP (海量并行处理) “完全不共享”体系 Greenplum体系:并行数据流 21 • 通用并行数据流引擎可以通过本地方 式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完0 码力 | 45 页 | 2.07 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum支持适用于数据挖掘和数据科学工作的最 全面、最先进的分析程序包和扩展。Greenplum 还针对最受欢迎的 Python 和 R 语言算法库提供简单易用的安装程 序,包括 Tensorflow、NumPy、SciPy、XGBoost、BeautifulSoup、lxml、Keras 和 PyMC3 等 Python 语言算法 库和程序包和 BH、DBI、MASS、MCMCpack、Matri x、R2jags、R6、RColorBrewer、ROCR、RPostgreSQL、 Rcpp、RcppEigen、RobustRankAggreg 等 R 语言算法库和程序包。 此外,Greenplum 还支持最新版 Apache MADlib(可用 SQL 进行机器学习、深度学习和图分析),它支持高并行 和基于 GPU 的深度学习模型训练,内置于集群硬件中的 GPU,能帮助 Greenplum 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地 理信息系统 (GIS) 对象存储在数据库中。Greenplum PostGIS 扩展包括支持使用基于 GiST 的 R 树空间索引和函数分 析和处理0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动,将 jar 添加到⼯程的 BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; import java.sql.DriverManager; "+e.getMessage()); System.exit(0); } System.out.println("Opened database successfully"); } } ⽰例程序⼆:java连接UDW,执⾏查询操作 PostgreSQLJDBC2.java import java.sql.Connection; import java.sql.DriverManager; JDBC⽅式访问 ⽅式访问 Linux操作系统 yum install postgresql-jdbc.noarch –y Windows环境下JDBC驱动,将jar添加到⼯程的BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; import java.sql.DriverManager;0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Segment部署策略 ● 容器化Greenplum运维管理 ○ 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● StatefulSet ○ Pod网络地址不变 ○ Pod与PV映射关系不变 Kubernetes 网络资源 Service ● Service ○ 定义统一网络地址 ○ 分布式应用程序路由映射 ○ 负载均衡器 Greenplum on Kubernetes Network Interconnect Standby Pod Master Pod Segment Pod Segment0 码力 | 33 页 | 1.93 MB | 1 年前3
Greenplum介绍所有的用户连接都是直接连接到master服务器上的。 Greenplum数据库是基于PostgreSQL数据库的,所以 可以用PostgreSQL数据库的工具来连接Greenplum数 据库,如java程序可以使用PostgreSQL的jdbc驱动来 访问Greenplum数据库,也可以使用psql工具或 pgadminII来管理Greenplum。 Greenplum架构: Master介绍0 码力 | 38 页 | 655.38 KB | 1 年前3
共 9 条
- 1













