Greenplum机器学习⼯具集和案例集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 PageRank 2017.thegiac.com Greenplum 集群规模: ● 1 主 ● 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 类分析,建⽴立会话 识别模型和主题模 型0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum 5:新一代数据平台 作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据客户需求在任何位置运行。借助这种“不 受限于基础架构”的方法,可以在本地或多云环境(私有云或公有云)中部署同一类型的分析数据库。 无论在商业化的 Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 私有云 公有云 pivotal.io/cn 白皮书 6 © Copyright 20170 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1的自动 FailOver 效果,编者也实现了自动 切换命令,当 Master 出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 配置基于内存限制的查询终止 分配资源组给ROLE 监控资源组状态 转移查询的资源组 资源组基于角色或基于外部组件 GP 有两类资源组,分别是为 ROLE 管理资源的资源组和为外部组件(如 PL/Container)管理资源的资源组。资源组最普遍的用途是用于限制 GP 数据库中活 Greenplum Database 管理员指南 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 54 - 此图展示的是内存配额的情况,该图与官方文档中有不同,因为 default_group 资源组的 memory_limit 是 0,应该是只能使用全局共享内存的资源。 当一个查询的内存消耗超过了资源组中定额部分的限制,将可以从该资源组的可共0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum供高性能的纯软件数据平台,Greenplum 可根据 客户需求在任何位置运行。借助这种“不受限于基础架构”的方法,可以在本地不同的操作系统、不同的芯片环境或多 云环境(私有云或公有云)中部署同一类型的分析数据库。这种不受限于基础架构的方法的大部分优势都具有同样强 大的作用,那就是可以消除对第三方平台、供应商制约,助用户实现选择自由。 Greenplum 保持着真正开源、完全开放的初心,获得广泛的技术认可,随着 Greenplum 社区版同时能够支持 X86 和 ARM 架构的芯片,支持主流品牌的芯片和操作系统,也将支持越来越多样 化的芯片和操作系统,特别是中国的本地化的芯片和操作系统: 图 1:Greenplum 纯中立支持主流芯片和操作系统 另外随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Greenplum 目前不但可在国外 的 Amazon Web 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上 Greenplum。 图 2:Greenplum 不受限于基础架构的软件架构 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集易扩展等方面的卓越表现是分不开的 。 1. 高吞吐 该客户大数据平台的 ODS 区,接入了源端近百个业务系统的生产数据, 每天需要加载进来的数据大概 5TB 左右。标准化处理完成后,需要给 后端的公共访问、类别繁多的沙箱类应用供数。 每月月初,业务繁忙时段,保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理,加上严格的数据时效性要求, 不选择 Greenplum 这种吞吐性能特别优秀的产品,很难满足业务部门 致坏盘在读写性能非常差的情况下仍然对外提供服务,最终将整个 集群拖慢。 ·如果客户的实际应用还存在大量较高并发的小 IO 操作,比如随机 查询,可以考虑 SSD+SAS+ 表空间的方式,并将随机 IO 类应用对 应的表放在 SSD 设备上,从而有效的隔离底层 IO,达到更好 SLA。 某电信用户存在大量对 400 个字段以上大宽表的随机查询场景,之 前由于 IO 资源争用,在批量作业调起时随机查询响应时间显著增加, Date2.indd 41 16-11-22 下午3:38 42 2. 执行计划对性能的影响 所谓执行计划,就是 GP 根据 SQL 和相关统计信息规划出的一种执行 线路图。之后的执行将严格按照该线路图执行 ( 至少目前的产品特点 如此 ),执行计划的优劣直接决定了 SQL 性能。在 pgAdmin3 中看到 如下执行计划节点时,需要警惕: 广播 (Broadcast Motion)0 码力 | 64 页 | 2.73 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同,多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 编译安装和调试调试模式 gpinitsystem 有一个 -D 选项,使用这个选项可以看到更多的输出信息,根据这些额外的输出信息 可以发现并解决大部分问题。 2.2.2 查看日志 常用的日志文件有两类,一种是 gpinitsystem 的日志,一种是数据库的日志。它们分别保存在不 同的目录下: ● gpinitsystem 的日志文件。默认路径为 ~/gpAdmin/gpinitsystem_*** (cost=0.00..2.03 rows=2 width=12) Optimizer status: legacy query optimizer 使用 explain.pl 可以生成如下的查询计划图:(把上面的explain结果保存到一个名为 a.plainplan 的文件中) $ explain.pl -opt jpg < /tmp/a.plainplan > /tmp/a.jpg0 码力 | 15 页 | 2.07 MB | 1 年前3
Greenplum 介绍需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal Greenplum 最佳实践分享物理模型对于系统性能有很大影响,因此需要我们特别关注。 以下来自于在某大型银行的使用经验: 行存储和列存储: • 避免过多使用列存储的原因是防止小档数过多。 • 列存储能够提升查询性能,对于更新和全字段类操作性能反而会下降 • 对于少数频繁查询的宽表,例如交易表、帐户表、客户表等采用列存储,其它表采用行存储 数据压缩: • 在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 使用B-Tree索引,对于区别度低的字段(<10000),采用 Bitmap索引; • 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 • 对于大数据类系统,应避免使用PK,UI,FK,唯一性约束或参考性检查将导致性能大幅下降; • 大数量更新时,应先删除索引,更新/加载数据后再重建索引,或者采用分区交换降低对目标表的影响 临时空间的监控和管理0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议r在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复0 码力 | 42 页 | 2.12 MB | 1 年前3
共 13 条
- 1
- 2













