移动端应用 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum Database 管理员指南 6.2.1

.................................................................................. - 31 - 第四章：配置客户端认证 ................................................................................................. ...................................................................................... - 36 - 客户端/服务端间的加密连接 ......................................................................................... - ..................... - 39 - 支持的客户端应用 ............................................................................................................ - 39 - GP 的客户端应用程序 ................................

0 码力 | 416 页 | 6.08 MB | 1 年前
3
Greenplum 精粹文集

才是计算和加载发生的场所（当然，在 HA 方面，Greenplum 提供 Standby Master 机制进行保证）。再进一步看，Master-Slave 架构在业界的大数据分布式计算和云计算体系中被广泛应用，大家可以看到，现在主流分布式系统都是采用 Master-Slave 架构，包括：Hadoop FS、Hbase、MapReduce、 Storm、Mesos...... 无一例外都是 Master-Slave 在国内某大型金融机构的大数据处理平台，使用 Greenplum 数据库产品支撑其 ODS 及各类集市应用。项目从 2013 年 6 月份开始到 2015 年底，生产环境已经由最初的一套集群发展到 10 多套，装机数量也从最初的 50 台发展到现在的数百台。短短两年半时间，服务器数量、集群数量、支撑的应用数量都飞速增长。 Big Date2.indd 20 16-11-22 下午3:38 数据库在该客户发展如此迅猛，与产品在高吞吐、开放性、易扩展等方面的卓越表现是分不开的。 1. 高吞吐该客户大数据平台的 ODS 区，接入了源端近百个业务系统的生产数据，每天需要加载进来的数据大概 5TB 左右。标准化处理完成后，需要给后端的公共访问、类别繁多的沙箱类应用供数。每月月初，业务繁忙时段，保守估计平均每天需要给下游系统提供 10TB 的压缩数据。如此大规模数据处理，加上严格的数据时效性要求，

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum 排序算法

博文 · 资料 · 文档 · 项目 Greenplum内核揭秘之排序算法 5 ● 内排序算法 ● 外排序算法 ● Greenplum TupleSort ● 排序在Greenplum中的应用 Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序内排序算法 7 快速排序是最常用的排序算法，由Tony Hoare在1959年发明。快速排序算法的三个步骤： 0 0 0 0 4(8) 4(8) 2(16) 2(16) 0 0 0 0 1(32) 1(32) 1(64) 0 0 0 IO次数：64 * 6 = 384 个基础顺串：每个顺串平均6次移动 33 Knuth 5.4.2D多相归并排序算法 ● 1. 初始化阶段，N+1个缓冲区，其中N个为输入缓冲区和1个为输出缓冲区。其中，每一个输入缓冲区包含若干个顺串，缓冲区顺串个数服从斐波纳切分布。 2(9) 1(5) 0 1(17) 1(9) 0 1(31) 0 0 1(57) 0 IO次数： 39 + 35 + 36 + 34 + 31 + 57 = 232个基础顺串：每个顺串平均4.07次移动 35 ● ExecInitSort：初始化SortState结构体排序节点类型字段说明 ScanState ss 查询状态信息 bool randomAccess 排序后的元组是否需要随机访问

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

通用并行数据流引擎可以通过本地方式执行 SQL和MapReduce • 采用了针对商用硬件优化的MPP“完全不共享”体系 • 可以在很多100s服务器上扩展到 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近计算内核 Greenplu m并行数据流引擎对本地磁盘进行直接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术（由Google普及）的产品 • 采用新的编程模型，在商用硬件上并行处理和执行网络平台：千兆网络 – 软件平台：RedHat linux + mysql – 应用软件：基于Apache的PHP程序 • 现有运行现状 – 随着数据量的不断增长，应用在现有平台上的运行效率极度恶化。 – 实际运行采样，9月份月度数据处理时，该应用耗时42小时；经过两个月的数据累加，到11月份月度数据处理时，该应用耗时达到65小时。 • 测试运行平台 – 服务器平台：SUN X4500两台，每台含2路dual-core 存储平台：每台X4500中各48块500GB硬盘，共96 * 500GB – 网络平台：每台X4500和X4200上各有4块千兆网卡 – 软件平台：Solaris 10 ＋ GreenPlum v3.1 Beta – 应用软件：SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum机器学习⼯具集和案例

generate_series(1,30:: bigint) AS ID) foo DISTRIBUTED BY (id); 2017.thegiac.com 2017.thegiac.com • 适合模型应用于数据子集的场景，并行执行效率非常高 • 如果节点间数据通讯，使用适⽤用场景 2017.thegiac.com MADlib 2017.thegiac.com 强⼤大的分析能⼒力力算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据，而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 MADlib 特性 2017.thegiac.com 客户端数据库服务器器 Master Segment 1 Segment 2 Segment n … SQL 存储过程结果集 String 聚集 psql … APP的交互 ● 对实时API请求进⾏行行分类和安全检测 ● 数据量量⼤大，现有数据分析团队缺乏技能客户数据科学解决⽅方案 ● 某⼤大型跨国⾦金金融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚类分析，建⽴立会话识别模型和主题模型 ● 建⽴立scoring pipeline, 对新访问的安全性进⾏行行评估 ●

0 码力 | 58 页 | 1.97 MB | 1 年前
3
Greenplum 分布式数据库内核揭秘

Greenplum 集群通常由一个 Coordinator 节点、一个 Standby Coordinator 节点以及多个 Segment 节点组成 l Coordinator 是整个数据库的入口，客户端只会连接至 Coordinator 节点，并执行相关的查询操作 l Standby 节点为 Coordinator 提供高可用支持 l Mirror 则为 Segment 提供高可用支持 7 复制分布则表示整张表在每个节点上都有一份完整的拷贝，假设我们有 100 个节点，复制表则会将数据保存 100 份。复制表可避免生成分布式查询计划，而是生成本地计划，从而避免数据在集群的不同节点间移动。 Confidential │ ©2021 VMware, Inc. 12 除了支持数据在不同的 segment 节点上水平分布以外，还支持在单个节点按照不同的标准进行分区，将单个节点上一个么在查询时，就需要各个节点将数据处理完毕后发送至 Coordinator 节点并返回给客户端用户。分布式查询优化器 l 对于普通查询，只需要将 Segment 上的数据汇总即可，如果有 filter，则在 segment 上执行条件过滤 l 对于 JOIN，我们需要考虑两张表的分布键以及分布策略。若分布键和分布策略不同，就需要对数据进行节点间移动 Confidential │ ©2021 VMware, Inc

0 码力 | 31 页 | 3.95 MB | 1 年前
3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

析数据平台 Greenplum，用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容，是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板，大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系统平台架构、创新性及核心特点，同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件，践行 “Run Everywhere”原则欧拉开源操作系统是一款面向数字基础设施的操作系统，支持服务器、云计算、边缘计算、嵌入式等应用场景，支持多样性计算，致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手，不仅是双方业务用户所期盼的，同时也是 Greenplum 社区与对中国本地开源社区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力！完全兼容欧拉开源操作系统的 HTAP 器、云计算、边缘计算、嵌入式等应用场景，支持多样性计算，致力于提供安全、稳定、易用的操作系统。通过为应用提供确定性保障能力，支持 OT 领域应用及 OT 与 ICT 的融合。欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系，孵化支持多种处理器架构、覆盖数字设施全场景，推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler

0 码力 | 17 页 | 2.04 MB | 1 年前
3
Greenplum 编译安装和调试

id，而 join 的键值是 student.id=classes.student_id 其中 student 的join键是其主键，因而不需要数据移动（motion）；而classes 的关联键是 student_id，和其分布键不同，因而需要数据移动（motion），以保证相同关联键的数据都在同一个 segment 上。感兴趣的读者可以尝试把 stendent 的分布键改成其他字段，看看计划有什么变化。 segment 的 QE形成一个 Gang，它们在不同的segment上执行相同的任务。 HashJoin 需要相同关联键的所有数据都在一个 segment 上，因而如果关联键不是分布键，则需要数据移动。在这个例子中classes 的分布键（id）和关联键（student_id) 不同，所以需要数据重分布。数据重分布由 Motion 操作符节点处理，它分成2个部分，一部分负责发送数据，一部分负责接收 redistribution）；2）广播（broadcast）。最后每个segment执行结束后，将结果发送给 Master。Master 对最终的数据整合（Gather Motion），返回给客户端。 4. 调试 Greenplum MPP 数据库 4.1 调试 Master 节点Backend进程调试 Master 的Backend进程（也称为 QD）和调试单节点的PostgreSQL

0 码力 | 15 页 | 2.07 MB | 1 年前
3
Greenplum介绍

了，整个 greenplum会变成只读，不能写了。如果模式是 “continue”模式时，一个segment坏了的时候，数据库仍然可以继续工作。但由于segment的primary与 mirror端的数据不同步了，所以恢复的时候需要花比较长的时间。对于Greenplum 3.X的版本，恢复时，需要把好的节点上的所有数据都copy到坏的机器上。而 Greenplum4.0版本增加了功能，当备份节点坏的时要让原先已offline的节点再加入集群中，需要重启集群。 Greenplum中的高可用方案对于Greenplum 3.X的版本，segment 的primary与 mirror之间是做的逻辑同步，mirror端的数据库实际上也是可以读写的。而Greenplum4.0版本后，primary与 mirror实际上是物理同步，这时mirror一直处于恢复状态，不能读也不能写。高可用之Master Mirroring 不依赖其它的segment。除了上面这引起典型的数据库操作，Greenplum的数据库有一个额外的操作类型，称为的motion。 motion操作就是把查询处理过程中涉及到的其它节点上的数据在各个节点中做移动。 GP的查询处理为了提高执行的性能，Greenplum把执行计划进行切片 (slice)。例如： SELECT customer, amount FROM sales JOIN

0 码力 | 38 页 | 655.38 KB | 1 年前
3
Greenplum 6: 混合负载的理想数据平台

included_parts GROUP BY sub_part 16 Pivotal Confidential–Internal Use Only 窗口函数表‘SALES’ 表‘SALES’ ■ 计算移动平均值或各种时间间隔的总和 ■ 分组内重置聚合和排序 SELECT last_name, salary, department, rank() OVER OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 HTAP HTAP = ? ■ 卓越的OLAP特性 ■ 出色的OLTP特性 ■ 多态存储 ■ 有效的并发和资源管理 OLTP-OLAP独立部署 OLTP数据库 OLAP数据仓库 ■ 实时性 ■ 数据同步复杂性 ■ 应用复杂性 43 Pivotal Confidential–Internal

0 码力 | 52 页 | 4.48 MB | 1 年前
3

共 24 条前往

页

分类

语言

格式

Greenplum Database 管理员指南 6.2.1

Greenplum 精粹文集

Greenplum 排序算法

Greenplum 新一代数据管理和数据分析解决方案

Greenplum机器学习⼯具集和案例

Greenplum 分布式数据库内核揭秘

完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum

Greenplum 编译安装和调试

Greenplum介绍

Greenplum 6: 混合负载的理想数据平台