Greenplum Database 管理员指南 6.2.1
业的建议和解决方案,提供最专业的技术支持服务,提供最专业的落地实施支持。 十多年来,参与过的项目不计其数,有 POC 测试,有开发支持,有故障支持,有 长期驻场支持,有临时的功能支持,甚至可能会作为用户看不见的后端支持,总之,我 们的目标是,努力解决用户的一切不违背自然规律的诉求,我们跟随着 Greenplum 的 成长,见证了 Greenplum 从闭源到开源的成长历程,一路给 Greenplum 做各种补丁 主机相比,相当于完全空闲,那么是否可以将 Master 和 Standy 设置到 Instance 主机上呢?从理论的角度来说,答案是肯定的,因为 GP 数据库的集群概念 是虚拟的,并没有严格限制不同角色必须分离,但,对于生产环境来说,除非可以 100% 确保计算节点机器的资源不会被耗尽,否则,都应该尽最大可能避免 Master 和 Standby 设置到 Instance 主机上,因为,这种模式下,一旦系统在处理负载很高的 )分割。或者使用@符号跟随文件名的方式指定,该文件包含需 要匹配的 DB Name。 role 匹配哪个 ROLE。all 可以匹配全部的 ROLE。如果想把一个 GROUP 的所 有成员匹配上,可以在 ROLE Name 前使用加号(+)表示。多个 ROLE Name 可以使用逗号(,)分割。或者使用@符号跟随文件名的方式指定,该文件包 含需要匹配的 ROLE Name。 address 指定该记录匹配的客户端0 码力 | 416 页 | 6.08 MB | 1 年前3Greenplum数据仓库UDW - UCloud中立云计算服务商
Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 42/206 数据仓库扩容过程中需要对数据进⾏重分布,因此,扩容完成的时间根据数据量的⼤⼩⽽不同。⽬前,暂时不⽀持数据仓库的缩容。 更改数据仓库密码 更改数据仓库密码 操作指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 43/206 续费 udw 6、分区表 、分区表 分区表在逻辑上把⼀个⼤表切割成⼩表,分区表可以优化查询性能、在查询的时候只查询部分分区的内容。另外分区表可以很⽅便的让数据仓库把⼀些⽐较⽼的数据移出数据仓库。 ⽬前udw⽀持的分区表类型有: range分区:把数据根据指定的范围进⾏分区,例如:时间范围、数值范围 list分区:把数据按照⼀个list的值进⾏分区,例如:产品的种类、地区 使⽤分区表的场景: � \pset 变量 [值] 设置表的输出选项 \t 只显⽰⾏ (当前是 关闭) \T [字串] 设置 HTML <表> 标记属性, 如果没有参数就取消设置 \x 在扩展输出之间切换 (⽬前是 关闭) 12、常⽤ 、常⽤SQL命令 命令 命令:ABORT 描述: 终⽌当前事务 开发指南 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud0 码力 | 206 页 | 5.35 MB | 1 年前3Greenplum 精粹文集
·WEB/Brower 监控 Big Date2.indd 7 16-11-22 下午3:38 8 3. Greenplum 的艺术 -- Parallel Everything 前 面 介 绍 了 Greenplum 的 分布式并行计算架构,其中 每个节点上所有 Postgresql 实 例 都 是 并 行 工 作 的, 这 种 并 行 的 Style 贯 穿 了 Greenplum 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑 MapReduce 是反潮流的),数据处理过程分成 Map-〉 Shuffle-〉Reduce 的过程,相比 MPP 数据库并行计算而言, Mapreduce 的数据在计算前未经整理和组织(只是做了简单数据 分块,数据无模式),而 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: 、 易扩展等方面的卓越表现是分不开的 。 1. 高吞吐 该客户大数据平台的 ODS 区,接入了源端近百个业务系统的生产数据, 每天需要加载进来的数据大概 5TB 左右。标准化处理完成后,需要给 后端的公共访问、类别繁多的沙箱类应用供数。 每月月初,业务繁忙时段,保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理,加上严格的数据时效性要求, 不选择 Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 dbsync平台 7 数据仓库体系架构 数据架构示意图 8 数据仓库体系架构 架构的具体技术实现 • 轻量级数据仓库 —— Inforbright – 与MySQL数据库结合,易使用,冷热分离 – 数据库归档,只能load,不支持DML – 对特定OLAP类查询有很好的支持作用 • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum on Kubernetes 容器化MPP数据库
Greenplum on Kubernetes Master节点示例 Segment节点示例 Greenplum on Kubernetes Greenplum on Kubernetes ● 存储计算分离 ○ PV持久化存储资源 ○ StatefulSet/Pod弹性扩展计算资源 ● 数据库服务层 ○ Service统一Master & Standby Master地址 ● 服务发现机制0 码力 | 33 页 | 1.93 MB | 1 年前3Greenplum机器学习⼯具集和案例
该模型善于预测不不会点击邮件的⽤用户, 但是⽆无法预测会点击邮件的⽤用户 该模型更善于预测会点击邮件的用户, 这样是用户真正关心的,能为公司带来 价值的用户群体 建模结果 2017.thegiac.com 改良前 改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ⼀一篇⽂文章中反复出现在⼀一起的⼏几个词语往往在描述同⼀一个主题 • ⼀一篇⽂文章往往含有多个主题,且每个主题所占的⽐比例例各不不相同 • LDA ⾃自动分析每个⽂文档,统计⽂文档内的词语,根据统计的信息来断定当 前⽂文档含有哪些主题,以及每个主题所占的⽐比例例各为多少。 主题模型:Latent Dirichlet Allocation (LDA) 2017.thegiac.com 基于LDA特征的聚类 thegiac.com 主题分布热⼒力力图检测异常 2017.thegiac.com 股票分析师 固定收益分析师 客户行为热图 建模效果示例例 2017.thegiac.com 改良前 改良后 X 在R上对data sample进⾏行行分析, DCA闲置 ✓ 使用Greenplum+MADlib对⼤大数据 集进⾏行行了了更更充分的分析 X 没有良好的⽤用户分类体系0 码力 | 58 页 | 1.97 MB | 1 年前3Pivotal Greenplum 5.0 - 开源MPP 数据库的不二之选
SQL 企业级数据库 生态系统 MPP 高速数据加载 多态存储 表‘SALES’ 列存储 行存储 1月 一年前 二年前 外部表 12月 11月 4月 3月 2月 5月 并行执行 企业级特性 Gemfire Chorus 使用场景 Text CLUSTERING0 码力 | 18 页 | 913.39 KB | 1 年前3Greenplum数据库架构分析及5.x新功能分享
(1- 9), quicklz, delta, RLE 访问多列时速度快 支持高效更新和删除 AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 无缝查询所有数据 Text, CSV, Binary, Avro, Parquet 格式 6月 5月0 码力 | 44 页 | 8.35 MB | 1 年前3Greenplum 6: 混合负载的理想数据平台
(1-9), quicklz, delta, RLE • 访问多列时速度快 • 支持高效更新和删除 • AO 主要为插入而优化 表‘SALES’ 11月 列存储 行存储 7月 一年前 二年前 外部表 • 历史数据和不常访问的数 据存储在 HDFS 或者其他 外部系统中 • 无缝查询所有数据 • Text, CSV, Binary, Avro, Parquet 格式 6月 5月0 码力 | 52 页 | 4.48 MB | 1 年前3Greenplum 介绍
原生和集成数据分析等强大功能的大数据引擎。 著名分析机构 Gartner 2019 年报告中,在经典数据分析领域 Greenplum 全球排名第三,实时分 析领域全球排名并列第四。Greenplum 是两个领域中排名前十的产品中的唯一一款开源产品。 Greenplum 基于 MPP(大规模并行处理)架构构建,具有良好的弹性和线性扩展能力,并内置 并行存储、并行通讯、并行计算和优化技术。同时,Greenplum0 码力 | 3 页 | 220.42 KB | 1 年前3
共 12 条
- 1
- 2