Pivotal Greenplum 5: 新一代数据平台pivotal.io/cn 白皮书 4 © Copyright 2017 Pivotal Software, Inc.保留所有权利。 PIVOTAL GREENPLUM 5:新一代数据平台 图 1:Pivotal Greenplum 5:新一代数据平台。 以开源创新替代专有分析环境 为了支持 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。 图 2:Pivotal Greenplum 5:不受限于基础架构的软件架构。 不受限于基础架构 裸机 私有云 公有云 pivotal.io/cn 白皮书 6 © Copyright 2017 、stringi、stringr、survival、tibble、tseries 和 zoo。 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1的自动 FailOver 效果,编者也实现了自动 切换命令,当 Master 出现无法正常工作的故障时,自动激活 Standby 来接管 Master 的任务。下面的流程图,是编者实现的 Master 和 Standby 自动切换的逻辑流程图, 可以供读者参考,不过,编者不方便公开实现的代码。 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) 编写:陈淼 - 54 - 此图展示的是内存配额的情况,该图与官方文档中有不同,因为 default_group 资源组的 memory_limit 是 0,应该是只能使用全局共享内存的资源。 当一个查询的内存消耗超过了资源组中定额部分的限制,将可以从该资源组的可共 资源组的 CONCURRENCY 属性为 0。 使用 DROP RESOURCE GROUP 命令来删除资源组,要删除一个资源组,该资源组 不能被分配给任何 ROLE,同时,该资源组上不能有任何活动的事务和等待的事务。如 果删除一个基于外部组件的资源组,该资源组上正在运行的实例将会被杀死。例如: =# DROP RESOURCE GROUP exec; 配置基于内存限制的查询终止0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力! 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum Greenplum 社区版同时能够支持 X86 和 ARM 架构的芯片,支持主流品牌的芯片和操作系统,也将支持越来越多样 化的芯片和操作系统,特别是中国的本地化的芯片和操作系统: 图 1:Greenplum 纯中立支持主流芯片和操作系统 另外随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Greenplum 目前不但可在国外 的 Amazon Web 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上 Greenplum。 图 2:Greenplum 不受限于基础架构的软件架构 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum0 码力 | 17 页 | 2.04 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP 计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数 Ø 以重点业务线、活动数据、非OLTP业务数据的任务计算为主 • 公司IDC_03机房Greenplum体系 Ø 数据来源来源为OTLP库库,针对大数据量传输和计算,采用T+1方式 Ø 以核心业务的数据计算、统计为主 数据处理不同 • 时效速度不同 • 体系架构相同 • 年表划分相同 • 平台整体定位 • 定位不同,多集群配合形成逻辑大集群 20 Greenplum现状说明 Greenplum多层业务规划图 21 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 介绍需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 ● 具备强大灵活性和可扩展性的平台: 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib 提供 SQL 区 期待的特性稳健推进中,包括内核升级、新课题,处于业界领先地位。 Greenplum 社区邀请 Pivotal、阿里云、百度等社区人士共同定期举办各种技术研讨会、技术沙龙、 101 培训等活动,获得良好反馈。国内多所知名大学开设了 Greenplum 相关数据库课程,并在学 术领域取得了突出成就。 Greenplum 生态完善。得益于对 SQL 标准的出色支持,Greenplum 可以与上下游的各种产品实0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum介绍GP提供了对工作负载和资源控制的功能。 在GP可以建一个资源队列(resource queue),然后把 用户加入到这个队列中,然后就可以控制: 1. 所有活动的SQL的cost值最多是多少? 2. 活动的SQL最多是多少个 3. 控制活动的SQL的优先级(4.0的新功能) GP的查询处理 用户提交一个SQL到master,master解析这个SQL, 生成一个分布式的执行计划,然后把这个分布式的执行0 码力 | 38 页 | 655.38 KB | 1 年前3
Greenplum机器学习⼯具集和案例集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 PageRank 2017.thegiac.com Greenplum 集群规模: ● 1 主 ● 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K 新会话 建模过程 对API请求结合超时和 K-means聚集处理理 验证聚 类结果 2017.thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data sample进⾏行行分析, DCA闲置0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 精粹文集Date2.indd 41 16-11-22 下午3:38 42 2. 执行计划对性能的影响 所谓执行计划,就是 GP 根据 SQL 和相关统计信息规划出的一种执行 线路图。之后的执行将严格按照该线路图执行 ( 至少目前的产品特点 如此 ),执行计划的优劣直接决定了 SQL 性能。在 pgAdmin3 中看到 如下执行计划节点时,需要警惕: 广播 (Broadcast Motion) 下午3:38 Greenplum 精粹文集 55 此外还应用了 Protegrity ESA 内的其他规则,可确保向任何尝试通过 查看功能查看数据的其他用户隐藏数据。在恶意管理员访问数据并试 图获取社会安全号码的时候它将仅显示最后 4 位数,隐藏并保护剩余 的敏感数据。 Protegrity 可以使用各种加密算法,但此种数据标记对数据科学家而言 尤其适用。不断对数据启用常用加密将增加额外的处理费用,且常用0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum分布式事务和两阶段提交协议r在1983年中提出了事务的隔离性并提出术语 “ACID”,自此,事务的ACID四个性质成为业内标准术语 8 Disk-Oriented DBMS Components 数据库管理系统组成图 Hector Garcia-Molina /Jeffrey D.Ullman/Jennifer Widom《数据库系统实现》 查询编译器/ 优化器 事务管理器 DDL编译器 执行引擎 日志和恢复0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum 编译安装和调试(cost=0.00..2.03 rows=2 width=12) Optimizer status: legacy query optimizer 使用 explain.pl 可以生成如下的查询计划图:(把上面的explain结果保存到一个名为 a.plainplan 的文件中) $ explain.pl -opt jpg < /tmp/a.plainplan > /tmp/a.jpg0 码力 | 15 页 | 2.07 MB | 1 年前3
共 10 条
- 1













