完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum白皮书 开源 Greenplum 新篇章: 兼容欧拉开源操作系统的数据平台 支持国产生态的高级分析数据平台 作者:Greenplum 中文社区、 欧拉开源社区 完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 ........................................................................................ 4 欧拉开源操作系统 .................................................................................................. ........................................................................................ 6 欧拉开源操作系统平台架构 ..............................................................................................0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1....................................................................................... - 18 - 管理与监控................................................................................................... .......................................................................................... - 57 - 监控资源组状态 ............................................................................................. .......................................................................................... - 95 - 系统模式 ................................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
Pivotal Greenplum 最佳实践分享• 对于并发请求高、面向于复杂的灵活查询的系 统,建议每个Segment配置4个或以下Instance, 这样来保证每个Instance所需资源,保证系统 系统运行稳定性,例如,减少OOM发生的概率; • 对于以批处理、串行工作为主的系统,可以配 置到8个Instance,这样可以尽可能的发挥每个 CPU的处理性能。 Master query plan Client Segments M22 统计信息收集 对于系统表和用户表需要收集统计信息,GPDB的查询计划是cost base的,统计信息的准确性对查询 计划的优劣有很大影响; 对于字段数较多的表,可关闭gp_autostate_mode (on_no_stats=>none),仅对必要列执行Analyze, 只在结果中返回的列无需收集统计信息; 对于频繁创建表删表的系统,可关闭gp_autostate_mode(on_no_stats=> on_change – gp_autostats_on_change_threshold = 5000000(资料依据项目而定) Truncate操作不会丢失字段级统计信息,在适当条件下可仅针对系统字段执行Analyze 垃圾空间回收 • GPDB采用MVCC机制,UPDATE 或 DELETE并非物理删除,而只是对无效记 录做标记; • Update/delete操作后,数0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum on Kubernetes
容器化MPP数据库Vertica Eon Mode ● 容器化数据库+Kubernetes ○ Apache Spark ○ CockroachDB ○ Apache HAWQ 云数据库存储方案 ● 块存储 ○ 文件系统接口 ● 对象存储 ○ 成本低 ○ 扩展性强 ○ 访问延迟高 Greenplum on Kubernetes Network Interconnect Standby Host Master 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 容器化分布式应用程序公共问题 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘 ● 容器间网络互联 故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 Kubernetes 容器网络管理 容器资源管理 容器镜像管理 容器调度 容器监控及自 定义操作 容器存储管理 Kubernetes 101 Kubernetes 101 Master组件 Node组件 Kubernetes存储资源 PV ● PersistentVolume0 码力 | 33 页 | 1.93 MB | 1 年前3
Greenplum 精粹文集SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 Big Date2.indd 1 16-11-22 下午3:38 横向扩展的分布式并行数据计算技术。 当时,开放的X86服务器技术已经能很好的支持商用,借助高速网络(当 时是千兆以太网)组建的 X86 集群在整体上提供的计算能力已大幅高 于传统 SMP 主机,并且成本很低,横向的扩展性还可带来系统良好 的成长性。 问 题 来 了, 在 X86 集 群 上 实 现 自 动 的 并 行 计 算, 无 论 是 后 来 的 MapReduce 计算框架还是 MPP(海量并行处理)计算框架,最终还 是需要软件来实现,Greenplum google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Post0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案今天的数据库供应商 网络运算的发展速度已经超过了主流数据库 • 海量规模 • 高性价比 • 高效率 数据库管理系统(DBMS)的 规模/容量 11 需要采用一种新的方法 •“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 • 通过实体整合提供企业级数据访问功能 • 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 • 动态措施 • 数据访问: • 在一个系统中协调所有企业数据的位置 • 可以通过任何语言(SQL、M/R等)进行分析 14 强大并且不断扩展的合作伙伴网络 硬件供应商 商务智能工具 15 服务供应商 业内支持和认可 行业奖励0 码力 | 45 页 | 2.07 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 • 过去的数据 —— OLAP Ø非实时(T+1,或小时级),离线系统,分析决策 Ø事务大,频率相对小,并发低 • 未来的数据 —— 趋势分析 Ø非实时,离线+在线流系统,趋势分析 Ø算法分析,持续计算 5 数据仓库体系架构 OLAP场景举例 • 业务相关场景 10 greenplum体系架构 postgresql体系结构 11 greenplum体系架构 postgresql体系结构 • pg结构组成 Ø 连接关系系统 Ø 编译执行系统 Ø 存储执行系统 Ø 事务系统 Ø 系统表 • pg逻辑和物理结构 Ø instance实例 - user - tablesapce Ø database - schema - table,view,function Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 22 Greenplum运维体系 环境创建与部署 • 部署流程 Ø 规划部署方案 Ø 准备硬件资源 Ø 修改系统参数 Ø 安装 Greenplum 软件 / postgresql软件 Ø 初始化实例 Ø 修改实例参数文件 Ø 初始化业务所需库表环境、用户环境 Ø 加载数据 Ø 业务程序访问 23 Greenplum运维体系0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Pivotal 最近推出全球第一个开源、支持多云的高级分析数据平台——Pivotal Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 Pivotal Network 分发的打包版本将具有相同的内核(只有个别微小差 别)。这是两年来致力于与 PostgreSQL 8.3.23 集成的成果,目的在于扩展和融入以 Greenplum 为中心的生态系统和社 区。为了更好地贴合 PostgreSQL 社区的模式,他们对代码库进行了重构,这样一来,便可以更轻松地从最新版本(未来 的 PostgreSQL 9.X 和 10)中纳入 PostgreSQL Pivotal Greenplum 或是开源的 Greenplum Database 中,这种不受限于基础架构的方法的大部分优势都 具有同样强大的作用。在 Greenplum Database 上部署分析系统时,用户还可获得一些额外的优势: • Greenplum Database 可消除平台 / 供应商制约。用户可通过不同供应商获得针对 Greenplum 的服务和支持。 • Greenplum0 码力 | 9 页 | 690.33 KB | 1 年前3
Pivotal HVR meetup 20190816支持触发器捕获技术作为补充 基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构 异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 • 丰富的统计报表 LDAP authenticated user; if that’s not configured just OS 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum开源MPP数据库介绍replication) Ø 自动灾难恢复 (FTS,主备切换) Confidential │ ©2022 VMware, Inc. 9 分布式优化器:OLAP Ø OLTP系统的SQL语句相对简单(CURD) Ø OLAP系统的SQL语句就复杂得多(OLTP则尽量避免) q Join 很复杂(多表, outer join, lateral…) q 子查询、子链接 q 聚集 (grouping enplum-venky-raghavan/ Confidential │ ©2022 VMware, Inc. 11 Greenplum的一些概念 Ø MPP、分布式系统最重要的点是什么? Ø 一个整体的分布式系统,和中间件的区别在哪? Ø Motion q 跨节点的数据交换 q Gather汇集 (n:1), Broadcast广播 (n:n), Redistribute重分布 (n:n) Languages/Container Confidential │ ©2022 VMware, Inc. 19 GPCC Greenplum Command Center Ø Web UI 监控和管理 Ø 实时性能监控 Ø 可视化计划 Ø 基于规则的任务管理 Ø 向客户推荐性能优化操作 Ø 报警和通知 Confidential │ ©2022 VMware, Inc. 20 Greenplum0 码力 | 23 页 | 4.55 MB | 1 年前3
共 23 条
- 1
- 2
- 3













