Greenplum 精粹文集架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群 IO 性能 是 40GB/s,这样超大的 IO 吞吐是传统的 Storage 中,通过并行计算获得数十倍性 能提高。 另外,GPTEXT(lucent 全文检索)、Apache Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布 式部署,从而获得库内计算的并行能力。这里可以分享的是,SAS 曾 经做过测试,对 1 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 10K RPM SAS 盘,采用 RAID5 或者 RAID10,需要预留单 独的 hotspare 盘),CPU 2 路 8 核及以上(主频 2.5GHZ 以上),1-2 块 RAID 卡(单块 RAID 卡的 cache 大小 1GB 以上,并带有掉电保护 功能,RAID 卡应为多通道,目前接触的硬件厂商中,单通道支持的最 大磁盘数为 16 块) ·硬盘尽量选 用 SAS 盘,从实践经验看,硬盘故障是0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 介绍术领域取得了突出成就。 Greenplum 生态完善。得益于对 SQL 标准的出色支持,Greenplum 可以与上下游的各种产品实 现集成,包括 PgAdmin、Informatica、Cognos、SAS、Talend、Qlik、Tableau、Anaconda、 Microstrategy、Boundless、Zattset、Datometry 等,涵盖 ETL、商业智能、高级分析、可视化、 集成分析、GIS0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum机器学习⼯具集和案例改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Master 的连接数是有限的,缺省值为 250 个,如果要大规模提升连接的可用数 量,可以配置使用 GP 自带的 pgbouncer 连接池,这对于一些应用场景会很有帮助, 例如 SAS 等软件连接 GP 时,由于这些软件自身无法严格限制连接数,pgbouncer 会 是一个有效的缓解连接数过大的方案,例如按照如下方式进行配置: $ cat pgbouncer.ini [databases] Server Integration Services (SSIS) and Reporting Services (SSRS) Ascential Datastage SAS Cognos GP专业技术支持可以协助用户配置他们选定的第三方工具协同GP工作。 连接故障排除 有很多导致客户端程序无法成功连接GP的原因。本节介绍一些常见的问题并说明 X86配置,OLAP场景的IO问题其实 已经解决,24块10K转速的SAS机械盘,配合主流的Raid卡,划分为2组Raid 5,连 续读写能力已经可以达到3GB/S甚至更高,再配合库内压缩,这样的IO吞吐能力,80 Core的CPU配置也能常常跑满CPU资源,所以,仅从IO性能的角度来说,OLAP场景, 24块10K转速的SAS机械盘已经完全能够胜任。如果要考虑OLTP场景的IOPS能力和磁 盘0 码力 | 416 页 | 6.08 MB | 1 年前3
VMware Greenplum v6.18 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. Run deep learning0 码力 | 1959 页 | 19.73 MB | 1 年前3
VMware Greenplum v6.19 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. Run deep learning0 码力 | 1972 页 | 20.05 MB | 1 年前3
VMware Greenplum v6.17 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. Run deep learning0 码力 | 1893 页 | 17.62 MB | 1 年前3
VMware Tanzu Greenplum v6.20 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. Run deep learning0 码力 | 1988 页 | 20.25 MB | 1 年前3
VMware Greenplum 6 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. VMware Greenplum0 码力 | 2445 页 | 18.05 MB | 1 年前3
VMware Greenplum 7 Documentationadvanced analytics software that are ODBC/JDBC compatible, or have native integrations, including SAS, IBM Cognos, SAP Analytics Solutions, Qlik, Tableau, Apache Zeppelin, and Jupyter. Run deep learning0 码力 | 2221 页 | 14.19 MB | 1 年前3
共 15 条
- 1
- 2













