OWASP移动TOP 10 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

©2020 Esena Chen(陈淼 miaochen@mail.ustc.edu.cn) 编者工作十几年，先后供职于民企，国企，外企，截止目前，已从事 Greenplum 技术工作 10 余年，10 余年来，专注在 Greenplum 和相关技术领域，主要工作职责是售后支持，帮助我们的 Greenplum 用户解决生产需求和技术问题，我们坚持提供最专业的建议和解决方案，提供最专业的技术支持服务，提供最专业的落地实施支持。 ............... - 378 - Greenplum Database 管理员指南 V6.2.1 版权所有：Esena(陈淼 +86 18616691889) 编写：陈淼 - 10 - 资源队列 ........................................................................................  某天或者某个时间的访问限制(不需要 BETWEEN 关键字)，例如：周二不允许登录。  一个有开始时间和结束时间的访问限制(需要 BETWEEN AND)，例如：周二下午 10 点到周三上午 8 点不允许登录。还可以指定多个限制，例如：周二的任何时间不允许登录并且周五的下午 3 点到 5 点不允许登录。指明日期和时间有两种方法指明哪一天。使用

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

2019数据分析行业报告 Pivotal Greenplum scored highly this year in all four use cases, positioning among the top vendors in all bar the context-independent data warehouse use cases. This reflects one of the major included_parts GROUP BY sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER PageRank性能 Greenplum集群: ● 1 master ● 4*6 segment 50亿条链接 (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 数据库内集成分析 GRAPHS Confidential & Proprietary “请找出

0 码力 | 52 页 | 4.48 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

2017.thegiac.com www.top100summit.com Greenplum机器器学习⼯工具集和案例例姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例⼤大纲 2017.thegiac.com std_dev) return(x) $$ LANGUAGE 'plr'; ● CREATE TABLE test_norm_var AS SELECT id, r_norm(10,0,1) as x FROM (SELECT generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017 4 数据节点 ● 每个节点6个segment 每个定点有50个边的图 5B edges (1K) (10K) (100K) (1M) (10M) (100M) Note: log-log scale (100s) (1s) (10K s) (1M s) 可扩展性 – PageRank 性能 2017.thegiac.com MADlib

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 6新特性: 在线扩容工具GPexpand剖析

配置文件（gpexpand生成或手动编辑） sdw:sdw:25438:/data/expand1/primary:9:3:p sdw:sdw:25439:/data/expand1/mirror:10:3:m GPExpand简介与具体用法 • 新增新节点 – postgres下创建gpexpand schema(-D参数已经取消) – gpexpand schema下面会创建几张表 ▪ 对表加最高级别锁（其他读写均被阻塞） – 移动数据到新节点 – 修改numsegments – 释放锁改进与实现 • numsegments的收益 – 不需要将表改成随机分布，单表查询可以做优化 – 对于Join查询，如果分布状态相同的情况下，可以被优化改进与实现 • 减少重分布数据移动量 – Greenplum 5及之前版本采用取模分布 – 节点数量发生变化后重新计算取模，移动数据量大 – 不仅存在新旧节点间的移动，旧节点之间也要移动不仅存在新旧节点间的移动，旧节点之间也要移动改进与实现 • 减少重分布数据移动量 – Jump Consistent Hash ▪ 均匀性：通过概率做到均匀分布 ▪ 稳定性：在相同集群大小下，同一个Tuple每次计算结果相同 ▪ 单调性：扩容过程中，旧节点之间没有数据迁移 ▪ 高效性：对于集群大小为N的时候，时间复杂度为Log(N) – 更多算法细节请参考链接。https://arxiv.org/pdf/1406

0 码力 | 37 页 | 1.12 MB | 1 年前
3
Greenplum 介绍

等。其中，国际客户包括摩根斯坦利、摩根大通、美国国家税务局、美联储、三星、戴尔、福特、爱立信等，国内客户包括深交所、建设银行、民生银行、广大银行、浦发银行、航旅纵横、中国移动、华为等。自 2015 年开源以来，更是吸引了包括阿里云、百度云、中移动、旷世、去哪儿网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台：部署灵活习新的数据库处理技术，人力成本也能够大大降低。 ● 处理和分析各种数据源的数据的平台：支持各种数据源，包括 Kafka、Hadoop、HIVE、 HBase、S3、Gemfire、各种数据库和文件等，不需要移动数据，避免了数据加载的复杂性，和其带来的数据不一致的问题。 ● 支持各种数据格式的平台：不管是结构化、半结构化（XML、JSON、KV）还是非结构化，譬如文本数据、GIS 数据、图数据等。采用开源方案，不担心后门问题，不担心被锁定。开源还可以构建更好的生态。 ● 采用敏捷软件开发方法开发的平台：Greenplum 采用敏捷方法开发，实现了快速迭代、持续发布和质量内建。2017 年 Greenplum 发布了 10 个版本，以前发布一个版本需要 1 个月左右，现在只需要十几个小时。 ● 具备企业级稳定性的平台：Greenplum 经过十多年发展，有大量活跃客户，大量数百节点集群为全球 2000 强企业生产系统提供服务，稳定性非常高。

0 码力 | 3 页 | 220.42 KB | 1 年前
3
Greenplum 精粹文集

一、Greenplum 的前生今世 1. Greenplum 的起源 Greenplum 最早是在 10 多年前（大约在 2002 年）出现，基本上和 Hadoop 是同一时期（Hadoop 约是 2004 年前后出现的，早期的 Nutch 可追溯到 2002 年）。互联网行业经过之前近 10 年的由慢到快的发展，累积了大量信息和数据，数据在爆发式增长，这些海量数据急需新的计算方式，需要一场右的数据，在 Greenplum 中不到一个小时就加载完成了，而在用户传统数据仓库平台上耗时半天以上。在该用户的生产环境中，1 个数百亿表和 2 个 10 多亿条记录表的全表关联中（只有 on 关联条件，不带 where 过滤条件，其中一个 10 亿条的表计算中需要重分布），Greenplum 仅耗时数分钟就完成了，当其它传统数据平台还在为千万级或亿级规模的表关联性能发愁时， Greenplum m 的 80 并发耗时 3 个多小时就成功完成了，其它厂商大都没有完成此项测试，唯一完成的一家耗时 40 多小时）。 Big Date2.indd 9 16-11-22 下午3:38 10 前文提到，得益于 Postgresql 的良好扩展性（这里是 extension，不是 scalability），Greenplum 可以采用各种开发语言来扩展用户自定义函数（UDF）（我个人是

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 编译安装和调试

segments: 2) (cost=0.00..2.09 rows=2 width=10) Hash Key: c.student_id -> Seq Scan on classes c (cost=0.00..2.03 rows=2 width=10) -> Hash (cost=2.03..2.03 rows=2 id，而 join 的键值是 student.id=classes.student_id 其中 student 的join键是其主键，因而不需要数据移动（motion）；而classes 的关联键是 student_id，和其分布键不同，因而需要数据移动（motion），以保证相同关联键的数据都在同一个 segment 上。感兴趣的读者可以尝试把 stendent 的分布键改成其他字段，看看计划有什么变化。 segment 的 QE形成一个 Gang，它们在不同的segment上执行相同的任务。 HashJoin 需要相同关联键的所有数据都在一个 segment 上，因而如果关联键不是分布键，则需要数据移动。在这个例子中classes 的分布键（id）和关联键（student_id) 不同，所以需要数据重分布。数据重分布由 Motion 操作符节点处理，它分成2个部分，一部分负责发送数据，一部分负责接收

0 码力 | 15 页 | 2.07 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

....... 10 并发控制优化 ......................................................................................................................................................................... 10 集群在线扩容 ............. 10 Greenplum VACUUM 提升 ............................................................................................................................................... 10 Greenplum 集群多站点复制完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum 白皮书 10 白皮书 | 10 在 2021 年 4 月传来喜报，Greenplum 数据库团队的论文《Greenplum: A Hybrid Database for Transactional and Analytical

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

(Randomly Distribution) l 复制分布 (Replicated Distribution) 数据分布策略 Confidential │ ©2021 VMware, Inc. 10 哈希分布是分布式数据库最为常用的数据分布方式。根据用户自定义的分布键计算哈希值，然后将哈希结果映射到某个 Segment 上。在 Greenplum 6 中，默认采用一致性哈希(Jump Consistent 复制分布则表示整张表在每个节点上都有一份完整的拷贝，假设我们有 100 个节点，复制表则会将数据保存 100 份。复制表可避免生成分布式查询计划，而是生成本地计划，从而避免数据在集群的不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个对于 JOIN，我们需要考虑两张表的分布键以及分布策略。若分布键和分布策略不同，就需要对数据进行节点间移动 Confidential │ ©2021 VMware, Inc. 17 由于数据是根据某种分布策略分散的存储在集群中的各个节点，那么进行查询时，就必然存在数据在各个节点间的移动，这既可能发生在 Coordinator 和 Segment 之间，也可能发生在 Segment 和 Segment

0 码力 | 31 页 | 3.95 MB | 1 年前
3
Greenplum 排序算法

比基准元素大的排到基准元素的右边，从而将待排序数组分成两个子集。快速排序 6 8 3 2 7 1 7 9 8 7 7 9 6 3 2 1 分治法 9 快速排序 ● 快速排序算法： 10 堆排序是最常用的排序算法，由J.Williams在1964年发明。 ● 堆是一种近似完全二叉树的结构，最大值堆要求每个子节点的键值总是小于父节点。最小值堆要求每个子节点的键值总是大于父节点。冲区。最后，输出缓冲区输出的顺串长度为L*K ● 算法复杂度 O(K* (L*K)) 顺串合并 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 6 7 8 10 . . . 输出缓冲区输入缓冲区 27 败者树算法(GP目前使用堆)： ● 1 与更高层的比较，一直向上，直到根节点。失败者留在当前节点。败者树 28 败者树 1 10 30 44 56 . . . 6 8 34 64 66 . . . 7 11 12 13 17 . . . 22 55 67 77 79 . . . 1 输出缓冲区输入缓冲区 1 6 7 22 6 22 7 1 29 败者树 10 40 44 56 76 . . . 6 8 34 64 66

0 码力 | 52 页 | 2.05 MB | 1 年前
3

共 35 条前往

页

分类

语言

格式