Greenplum机器学习⼯具集和案例Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端 成对相关性 删除⾼高度相关变量量 逻辑回归 计算 KS 分值 模型验证 ⼿手动预测 1 2 3 4 5 6 7 8 原始⼯工作流程 2017.thegiac.com 数据整理理 特征⽣生成 验证 预测 信息价值 ⽅方差膨胀 因⼦子 成对相关性 逻辑回归 Elastic Net 特征选择 excel ● 在 GPDB 中花 58 秒计 算 ~200 个变量量的IV 13.7x/变量量 建模 ● < 50 个变量量,运⾏行行⼀一 次逻辑回归迭代需要 ~30 分钟 ● 376 个变量量,运⾏行行⼀一次 逻辑回归迭代需要 ~1.86 分钟 ~16x/迭代 ⼯工作流程优化 2017.thegiac.com 原始模型 改良后的模型 ● 模型精确度0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Madlib(开源挖掘算法)、 SAS algorithm、R 都是通过 UDF 方式实现在 Greenplum 集群中分布 式部署,从而获得库内计算的并行能力。这里可以分享的是,SAS 曾 经做过测试,对 1 亿条记录做逻辑回归,采用一台小型机耗时约 4 个 多小时,通过部署到 Greenplum 集群中,耗时不到 2 分钟就全部完成 了。以 GPEXT 为例,下图展现了 Solr 全文检索在 Greenplum 中的并 行化风格。0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台扩展包括支持使用基于 GiST 的 R 树空间索引和函数分析和处 理 GIS 对象。 图 3:Pivotal Greenplum 5:集成的分析。 地理空间 图分析库 聚类分析 传统BI分析 分类分析 回归分析 全文检索 pivotal.io/cn 白皮书 7 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum和软件包引入欧拉开源社区软件仓库后,Greenplum 中文社区开发者还针对引入的欧拉开源操作系统 版本做了功能性验证和测试,测试结论如下: GreenplumDB 6.17.0 版本本次测试,共计执行回归用例 930 个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 介绍全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum 还兼容 SQL 标准,具备强大、 高效、安全的 PB 级结构化、半结构化和非结构化数据存储、处理和实时分析能力,可部署于企 XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 支持扩展(Extension)、自定义类型和函数、PXF 和外部表技术。可以使用多种语言实现用户自定义函数和聚集,包括0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享Only GPDB:为大数据存储、计算、挖掘而设计 标准 SQL 数据库:ANSI SQL 2008 标准,OLAP,JDBC/ODBC 支持ACID、分布式事务 分布式数据库:线性扩展,支持上百物理节点 企业级数据库:全球大客户超过 1000+ 安装集群 百万行源代码,超过10年的全球研发投入 开源数据库(greenplum.org),良性生态系统 5 Pivotal 14 Pivotal Confidential–Inter nal Use Only 大规模并行数据加载 • 高速数据导入和导出 – 主节点不是瓶颈 – 10+ TB/小时/Rack – 线性扩展 • 低延迟 – 加载后立刻可用 – 不需要中间存储 – 不需要额外数据处理 • 导入/导出 到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版 外部数据源 Interconnect0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1的并行文件分发服务(gpfdist),管理员可以实现最大化 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP 外部表和 gpfdist 是如何配合,以实现高速数据装载的,该模式 的性能是完全线性扩展的,数据直接在 gpfdist 和 Primary 之间并行传输,数据的 重分布直接在 Primary 之间完成,整个架构没有瓶颈点。 管理与监控 对 GP 系统的管理, 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 205 - 定百分比位置的线性插值的结果,MEDIAN和PERCENTILE_CONT返回的结果是线性插 值,PERCENTILE_DISC返回的结果是距离线性插值最近的输入值。例如: =# SELECT MEDIAN(i), PERCENTILE_CONT(0.22) WITHIN float MEDIAN (expression) 例如: SELECT MEDIAN(i) FROM generate_series(0,15) AS i; 返回一个中间 值或者线性插 值。空值被忽 略。 PERCENTILE_CONT (expr) WITHIN GROUP (ORDER BY expr [DESC/ ASC]) timestamp0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 分布式数据库内核揭秘Features Confidential │ ©2021 VMware, Inc. 4 Greenplum 是基于 PostgreSQL 所实现的大规模并行处理(MPP)开源数据平台,具有良好的弹性 和线性拓展能力,内置并行存储、并行通信、并行计算和并行优化功能,兼容 SQL 标准。拥有独 特的高效的 ORCA 优化器,具有强大、高效的 PB 级数据存储、处理和实时分析能力,同时支持 OLTP 型业务的混合负载。0 码力 | 31 页 | 3.95 MB | 1 年前3
共 8 条
- 1













