调度规则 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum运维体系数据库数据传输与同步-db_sync 31 Greenplum运维体系 Greenplum任务调度 • greenplum内部存储过程调度 Ø大批量任务采用 kettle调度 Ø单个存储过程，可以在shell中 select func_name() 的方式调度 • 外部任务调度 Ø将整个过程封装成shell脚本，或 Python脚本 Ø用crontab在操作系统调用脚本 Ø用 opencron在图形界面调用脚本 opencron在图形界面调用脚本 32 Greenplum运维体系 Greenplum任务调度-opencron 33 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 34 Greenplum开发规范不规范容易出现的问题 • GP架构易出现问题 table_name命名要符合命名规则，做到见名知义 36 Greenplum开发规范用户与权限规范 • 四层授权保保障 Ø 角色 role ：管理数据库内对象权限 Ø 用户 user ：用户认证权限 Ø pg_hba.conf ：实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

Pivotal Confidential–Inter nal Use Only 多级分区存储 • 哈希Distribution：数据均匀的分布到各个数据节点 • 范围分区：数据节点内部，根据多种规则分区，降低扫描量数据集 Segment 1A Segment 1C Segment 1D Segment 2A Segment 2B Segment 2C Segment 2D Segment 不需要额外数据处理 • 导入/导出到&从: – 文件系统 – 任意 ETL 产品 – Hadoop 发行版外部数据源 Interconnect ... ... ... ... 主节点查询优化和调度数据节点存储数据 & 查询处理 SQL ETL File Systems 15 Pivotal Confidential–Inter nal Use Only 15 © Copyright 系统表优化器分布式事务调度器执行器解析器执行词法分析、语法分析并生成解析树客户端主节点接受客户连接，处理请求，执行认证解析器主节点 17 Pivotal Confidential–Inter nal Use Only 优化器本地存储主节点Segment 系统表分布式事务 Interconnect 调度器执行器解析器优化器处理解析树，生成

0 码力 | 44 页 | 8.35 MB | 1 年前
3
Greenplum 精粹文集

Greenplum 上。最后，需要强调的是：Greenplum 绝不仅仅只是简单的等同于 “Postgresql+interconnect 并行调度 + 分布式事务两阶段提交”， Greenplum 还研发了非常多的高级数据分析管理功能和企业级管理模块，如下这些功能都是 Postgresql 没有提供的： ·外部表并行数据加载 ·可更新数据压缩表 Cost-Base 的算法优化，让用户就像使用关系型数据库一样使用 Hadoop。底层存储采用 HDFS， HAWQ 实现了计算节点和 HDFS 数据节点的解耦，采用 MR2.0 的 YARN 来进行资源调度，同时具有 Hadoop 的灵活伸缩的架构特性和 MPP 的高效能计算能力。当然，有得也有所失，虽然 HAWQ 的架构比 GreenplumMPP 数据库灵活，但在获得架构优越性的同时，其性能比 ·行存还是列存：列存储有更高的压缩率，合适于聚合运算，但不合适于宽表。一个数据库中不应只有一种存储方式，每张表应依据实际情况设计存储方式。 ·临时表：对于程序中所使用到的临时表和中间表，上述 3 点规则同样适用。 ·分区： Greenplum 的分区原理与其他数据库无异。表的子分区个数不宜过多，子分区粒度不易过细，子分区之间无需均匀。 ·索引：在 Greenplum 中，可以使用索引但不能滥用。与

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

ROLE，这个设置并不会传递到该组的其他 ROLE，也就是说， ROLE 的资源组属性不可继承。注意：不能将创建的基于外部组件的资源组分配给一个 ROLE。如果想要将一个资源组从一个 ROLE 移除，并按照缺省的规则分配一个缺省资源组，可以修改 ROLE 并分配一个名为 NONE 的资源组。例如： =# ALTER ROLE mary RESOURCE GROUP NONE; 监控资源组状态 TRUNCATE命令。例如： =# DELETE FROM mytable; =# TRUNCATE mytable; DROP TABLE会删掉所有与该表相关的索引、规则、触发器、约束等。然而要一起删除与该表相关的视图VIEW，必须使用CASCADE。CASCADE会删除所有依赖该TABLE 的VIEW。如果不使用CASCADE，当表上有依赖时，DROP操作将会报错失败。例如：例如，数据仓库中仅需要保留过去两个月的数据。如果数据按月进行分区，将可以很容易的删除掉两个月之前的数据(TRUNCATE分区或者删除分区)，而最近的数据存入最近月份的分区即可。  按照某个规则数据是否可以被均匀的分拆？应该选择尽量把数据均匀分拆的规则。若每个分区储存的数据量相当或者与分区跨度成比例，那么查询性能的改善将与分区的数量或者条件的范围相关。例如，把一张表分为10个分区，命中单个分区条件的查询性能可能会

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Pivotal HVR meetup 20190816

Migrations Disaster Recovery 6 扩展性—高性能架构 7 • 创建并装载目标表 • 用于实时复制的初始化 • 也可以单独使用 • 可以被定义为任务，定时调度执行异构平台环境下初始化同步 8 • 非侵入式技术对生产没有影响 • 基于日志捕获技术的实时性非常高 • 支持从过去的某一指定时间开始捕获 • 条件过滤 • 支持触发器捕获技术作为补充 6RNA 18 Compare Products ➢ 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步，无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低，且支持数据的安全传输一些事前没有考虑到的问题： 1. 数据质量问题 0000-00-00 00:00:00 28:00:00

0 码力 | 31 页 | 2.19 MB | 1 年前
3
Greenplum数据仓库UDW - UCloud中立云计算服务商

JDBC、ODBC、PHP、Python、命令⾏ Sql 等⽅式访问 UDW 2. Master Node：访问 UDW 数据仓库的⼊⼝接收客⼾端的连接请求负责权限认证处理 SQL 命令调度分发执⾏计划汇总 Segment 的执⾏结果并将结果返回给客⼾端 3. Compute Node： Compute Node 管理节点的计算和存储资源每个 Compute Node 由多个 Segment opclass ] [, ...] ) [ TABLESPACE tablespace ] [ WHERE predicate ] 命令: CREATE RULE 描述: 定义⼀个新的重写规则语法: CREATE [ OR REPLACE ] RULE 名字 AS ON 事件 TO 表 [ WHERE 条件 ] DO [ ALSO | INSTEAD ] { NOTHING 117/206 描述: 删除⼀个索引语法: DROP INDEX 名字 [, ...] [ CASCADE | RESTRICT ] 命令: DROP RULE 描述: 删除⼀个重写规则语法: DROP RULE 名字 ON 关系 [ CASCADE | RESTRICT ] 命令: DROP SCHEMA 描述: 删除⼀个模式语法: DROP SCHEMA

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum on Kubernetes 容器化MPP数据库

故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性容器化分布式应用程序公共问题容器网络管理容器资源管理容器镜像管理容器调度容器监控及自定义操作容器存储管理容器化Greenplum ● 容器粒度 ○ Segment主机 VS. Segment实例 ● 容器资源分配 ○ CPU ○ 内存 ○ 磁盘故障检测及恢复 ○ 升级扩容 ● 容器化Greenplum存储管理 ○ 容器本地存储易失性 ○ 容器外部存储关联性 Kubernetes 容器网络管理容器资源管理容器镜像管理容器调度容器监控及自定义操作容器存储管理 Kubernetes 101 Kubernetes 101 Master组件 Node组件 Kubernetes存储资源 PV ● PersistentVolume PersistentVolumeClaim ○ 申请存储资源 Kubernetes 计算资源 Pod ● Pod ○ 计算任务 → 容器 → Pod ○ 资源分配：CPU，内存，磁盘 ○ 资源调度：Pod → Node ● Pod管理 ○ 无状态计算资源组：Deployment ○ 有状态计算资源组：StatefulSet ● Pod持久存储 ○ 通过PVC申请PV存储资源 ● StatefulSet

0 码力 | 33 页 | 1.93 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

白皮书 7 白皮书 | 7 1. 引领内核创新云原生调度增强：针对云场景在线和离线业务混合部署场景，创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖动抑制，创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS：面向非易失性

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum备份恢复浅析

53.gz 其中XXX表示用户定义的文件前缀，0代表是非master节点，2代表该文件产生的 segment对应dbid，20170206160253是前面所说的时间戳。在恢复时，会根据这个命名规则，找到对应的文件。 2017 年象行中国（杭州站）第一期 gpcrondump具体实现(1/2) 2017 年象行中国（杭州站）第一期 gpcrondump具体实现(2/2) gpcr 数据恢复(2/2) 2017 年象行中国（杭州站）第一期虽然并行备份和恢复大大提高了备份和恢复的速度，但是仍然存在很多问题： 1. 大量数据需要落盘 2. 使用dbid作为备份文件命名规则，在主备切换或者 primary和mirror后会出现问题 3. 可能会出现各个segment数据不一致的情况 …... 并⾏备份恢复存在的问题 2017 年象行中国（杭州站）第一期并⾏备份恢复优化(1/3) 并⾏备份恢复优化(1/3) OSS uploader uploader uploader 2017 年象行中国（杭州站）第一期并⾏备份恢复优化(2/3) 使用dbid作为备份文件命名规则，在主备切换或者primary 和mirror后会出现问题，例如： dbid=2 dbid=5 primary mirror test_gp_dump_0_2_20170206160253.gz

0 码力 | 17 页 | 1.29 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

通过经济的方案扩展到千万亿字节规模 • 不用担心数据增长或者开始的规模太小 • 在商用硬件上通过线性、经济的方式扩展 Greenplum数据引擎体系主机网络互连并行查询规划和调度区段服务器（处理和存储） SQL 查询和 MapReduce程序 MPP （海量并行处理） “完全不共享”体系 Greenplum体系：并行数据流 21 • 通用并行数据流引擎可以通过本地方

0 码力 | 45 页 | 2.07 MB | 1 年前
3

共 16 条前往

页

分类

语言

格式

并行不悖- OLAP 在互联网公司的实践与思考

Greenplum数据库架构分析及5.x新功能分享

Greenplum 精粹文集

Greenplum Database 管理员指南 6.2.1

Pivotal HVR meetup 20190816

Greenplum数据仓库UDW - UCloud中立云计算服务商

Greenplum on Kubernetes 容器化MPP数据库

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum备份恢复浅析

Greenplum 新一代数据管理和数据分析解决方案