Greenplum机器学习⼯具集和案例2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com 2017.thegiac.com 客户端 数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程 结果集 String 聚集 psql … 执⾏行行流程 2017.thegiac.com External Sources Load, streaming, etc.0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum 正是在这一背景下产生的,借助于分 布式计算思想,Greenplum 实现了基于数据库的分布式数据存储和并 行计算(GoogleMapReduce 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门造轮,那就有理由为那个车的前途感到担忧,一个简单 判断的标准就是看看底下那个轮子有多少人使用,有多少人为它贡 献力量。 系统也直接采用 Postgresql。 相比之下,Greenplum 更强悍,把 Postgresql 作为实例(该实例非 Oracle实例概念,这里指的是一个分布式子库架构在Interconnect下), 在 Interconnect 的指挥协调下,数十个甚至数千个 Sub Postgresql 数 据库实例同时开展并行计算。而且,这些 Postgresql 之间采用 share- nothing0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1较长,时间较久,研发的本 地化,使得沟通的效率大大提高。 GP 是一个纯软件实现的 MPP 数据库产品,采用 Share-Nothing 架构,可管理和 处理分布在多个不同主机上的大规模数据集。对于 GP 数据库来说,一个数据库集群是 由多个独立的 PostgreSQL 实例构成的,它们分布在不同的主机上,实例之间协同工 作,用户可以像使用一个普通的单机数据库那样,进行访问和执行 SQL 操作。其中 才是真正进行数据处理的地方。缺省情况下,用户不能跳过 Master 直接访问 Instance,而只能通过 Master 来访问整个数据库系统,不过,对于管理 员来说,有时需要使用 Utility 模式来访问 Instance,访问方法是: $ PGOPTIONS='-c gp_session_role=utility' psql 在 GP 推荐的硬件配置环境下,每个 Instance 需要对应数个 之间的通信和数据传输,网络层可以使用标准的 以太网协议。不要认为网络只是连通作用,请按照 GP 的安装部署要求,必须使用万兆 网络作为内部互联网络,否则,一定会遭受很多网络方面的困扰。 在缺省情况下,网络层使用 UDPIFC 协议。这是经过改善的 UDP 协议,在 UDP 协 议的基础上增强了数据包校验,其可靠性与 TCP 协议相似,但其性能和扩展性远好于 TCP 协议。当集群规模较小,同时,网络的稳定性较差的时候,如果0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum也将支持越来越多样 化的芯片和操作系统,特别是中国的本地化的芯片和操作系统: 图 1:Greenplum 纯中立支持主流芯片和操作系统 另外随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Greenplum 目前不但可在国外 的 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,也可以运行在国内云平台上,如阿里云、 中国研发团队完成,也说明了中国研发团队实力处于世界一流水平。在论文 中 Greenplum 团队提出一种全新的全局死锁检测器来减少独占锁的使用,减少独占锁的使用可以极大的提高数据库 在高并发状态下的性能,这项技术已经在 Greenplum6 实现。 在 Greenplum6 和即将发布的 Greenplum 7, 带来了多项产品改进和新增功能,这些功能提升了性能,增加了系统可 用性,提高了系统可维护性,而这些对于传统 的,针对这种情况,Greenplum 7 版本采用了多个集群间异步的方式来处理,来确保数据同步。这样备份集群和主 集群之间可能会存在延迟,延迟的大小是由传输管道的带宽决定的,但在大部分使用场景下,这样的延迟是可以接受 的。 图 3:Greenplum 多站点复制 Master 节点自动 Failover Greenplum 7 将实现 Master 的自动 Failover0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 17/206 yum install postgresql-jdbc.noarch –y Windows 环境下 JDBC 驱动,将 jar 添加到⼯程的 BUILD PATH。 ⽰例程序1,java连接UDW,执⾏建表,插⼊操作 PostgreSQLJDBC1.java import java.sql.Connection; 如出现以上内容,则表⽰psqlodbc配置成功。 其他⽅式 其他⽅式 1.udw客⼾端的⽅式访问 1.1 udw(greenplum)客⼾端⽅式访问(以Centos为例) 如果你选择的数据仓库类型是greenplum、可以采⽤下⾯的⽅式访问 1)下载greenplum客⼾端解压 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 23/206 wget http://udw hostIP(或域名) –U username -d database -p port –W 1.2 udw(udpg)客⼾端⽅式访问(以Centos为例) 如果你选择的数据仓库类型是udpg、可以采⽤下⾯的⽅式访问 快速上⼿ Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 24/206 1)下载udw客⼾端 wget http://udw0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum介绍的时候,greenplum会自动切换到mirror。当master不 能连接到一个segment instance时,会把这个instance 标记为invalid。 Greenplum中的高可用方案 默认情况下,greenplum的失败操作模式是“read- only"模式,也就是说如果一个segment坏了,整个 greenplum会变成只读,不能写了。如果模式是 “continue”模式时,一个segment坏了的时候,数据 Greenplum4.0版本增加了功能,当备份节点坏的时 候,主节点可以把增量数据记下来,这样当备份节点的 主机恢复时,只需要恢复增量数据就可以了。 要让原先已offline的节点再加入集群中,需要重启集 群。 Greenplum中的高可用方案 对于Greenplum 3.X的版本,segment 的primary与 mirror之间是做的逻辑同步,mirror端的数据库实际上 也是可以读写的。而Greenplum4 GP的查询处理 用户提交一个SQL到master,master解析这个SQL, 生成一个分布式的执行计划,然后把这个分布式的执行 计划分发到各个segment上,然后segment执行它自己 的特定数据集的本地数据库业务。 所有的数据库操作,如表扫描、表连接(joins)、聚集 ( aggregations),排序,这些操作都会在所有的 segment上并行执行。每个segment执行这些操作时都0 码力 | 38 页 | 655.38 KB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台体产品方向产生影响,而这又会加快产品创新。 客户能够在群集中的一组初始服务器上部署 Pivotal Greenplum,并能在数据存储和用户需求增加时扩充配置中的服务器数 量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BI) 生成的 SQL 查询往往带有相关子查询,内部子查询需要外部查询的相关知识。GPORCA 可 以生成不相关的计划,这种计划只需查询一次。随后,系统将中间结果与主表结合,生成符合用户条件的结果集。借助上 述及其他优化方法,经过 GPORCA 优化的 SQL 查询可实现 10 倍甚至更大幅度的速度提升。但是,也有其他一些查询(尽 管数量不多)尚且无法通过 GPORCA 实现性能提升。随着 GPORCA nplum 5 采用 GPORCA 作为默认查询优化器,可确定消除与结 果无关的分区的经济方式,从而改进动态分区消除。这是通过引入以下三个新的查询操作符实现的,这三个操作符在生成 者 / 使用者模式下配合使用以便对分区表执行扫描:PartitionSelector、DynamicScan 和 Sequence。通过在查询计划中放置 这些 PartitionSelector,GPORCA 可以支持更0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum备份恢复浅析[--rsyncable] 2017 年象行中国(杭州 站)第一期 gpcrondump⽤法(2/3) gpcrondump命令使用-K来指定唯一时间戳来标示某个备份集 文件,其中如果当前备份目录中存在更未来的备份集,则备份报错。 gpcrondump命令使用-t 或者--table-file,-T或者--exclusive-table-file,-s或 者--schema-file,- 5. 其他操作,例如备份全局对象(角色和表空间)、 备份config文件、清理旧备份集以及VACCUM等 2017 年象行中国(杭州 站)第一期 gp_dump具体实现 2017 年象行中国(杭州 站)第一期 非并行数据恢复 如果恢复前后的数据库节点个数不同,则推荐使用非并行数据恢复,不过需要 保证备份集完整,而且都位于master所在的机器上,具体执行步骤如下 1.createdb database_name 0 码力 | 17 页 | 1.29 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台, 为全国近20万家电商企业提供全面的信息化解决方案。 经过5年多的发展,公司员工从2014年成立之初的9人增加到现在 1200多人。聚水潭已在全国设立了40多个线下服务分支机构,服务范 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、2019.7上线 HDB4PG •数据压缩 •弹性扩容 •成熟稳定 •性能良好 •阿里云支持 THANKS 谢 谢 聆 听0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案MapReduce Greenplum MapReduce的优势 • 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 竞争对手 • Teradata, Oracle • 数据规模 • 1万亿行事实数据表,每天增加 3TB • 硬件 • 40节点的Sun数据仓库设备 • 优势 • 可以通过控制支持快速膨胀的数据集 “Greenplum将成为我们不可或缺的合作伙伴,因为我们需要不断更新数据操作方式,使用户和广告商 通过我们的工作网络中获得更好的印象。” - FIM受众网络技术和运营部门的产品执行副总裁 Arnie0 码力 | 45 页 | 2.07 MB | 1 年前3
共 21 条
- 1
- 2
- 3













