三端一体化 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

Greenplum数据仓库UDW - UCloud中立云计算服务商

74 74 74 74 75 76 76 79 81 82 90 92 101 102 103 104 106 128 访问访问UDW数据仓库数据仓库 1 客⼾端⼯具访问UDW 2 图形界⾯的⽅式访问UDW 数据导⼊数据导⼊ insert加载数据 copy加载数据外部表并⾏加载数据从hdfs加载数据从mysql中导⼊数据从oracle中导⼊数据表膨胀表膨胀表膨胀的原因如何避免表膨胀 UDW中中Json类型类型 Json相关操作 Json操作举例 Json相关函数 Json创建函数 Json处理函数接⼊第三⽅接⼊第三⽅ BI ⼯具⼯具⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例使⽤案例案例⼀利⽤ logstash+Kafka+UDW 对⽇志数据分析 2012-2021 UCloud 优刻得 5/206 概览概览产品架构快速上⼿操作指南访问UDW数据仓库数据导⼊开发指南 udw优化指南表膨胀 UDW中Json类型接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能迁移数据使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格概览 Greenplum数据仓库 UDW Copyright

0 码力 | 206 页 | 5.35 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

......................................................................................... - 22 - 第三章：角色权限管理 ........................................................................................... .................................................................................. - 31 - 第四章：配置客户端认证 ................................................................................................. ...................................................................................... - 36 - 客户端/服务端间的加密连接 ......................................................................................... -

0 码力 | 416 页 | 6.08 MB | 1 年前
3
并行不悖- OLAP 在互联网公司的实践与思考

1 并行不悖 – OLAP 在互联网公司的实践与思考赵飞祥 2 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 3 数据仓库体系架构业务数据与数据使用归类时间维度：过去 - 现在 - 未来（数据的生命周期） • “现在”的数据 —— • 通用性数据仓库 —— Greenplum – 独立的数据库仓库解决方案 – 可以很好支持各种方式的数据加载和DML操作 – 具备海量的数据存储和计算性能 9 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 10 greenplum体系架构 Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明三 Greenplum体系架构二数据仓库体系架构一 Greenplum开发规范五 Greenplum运维体系四 Greenplum扩展规划六 16 Greenplum现状说明 Greenplum集群现状概述 • 三大Greenplum集群体系 Ø 公司IDC_01机房Greenplum体系

0 码力 | 43 页 | 9.66 MB | 1 年前
3
Greenplum 排序算法

Outline 6 ● 冒泡排序 ● 插入排序 ● 快速排序 ● 堆排序 ● 基数排序内排序算法 7 快速排序是最常用的排序算法，由Tony Hoare在1959年发明。快速排序算法的三个步骤： ● 挑选基准值：从数列中挑选出一个基准元素，称为pivot ● 分割：重新排序数组，所有比基准元素小的元素排放到基准元素之前；所有比基准元素大的元素排放到基准元素之后。分割完成后，我们完成了对基准元素的有外存数据处理完毕。该算法生成的每一个顺串的大小都不会超过内存的大小，而顺串越小，合并阶段的代价就越高，需要读取外存的次数也越多，有没有办法在分割阶段就生成大于内存大小的顺串呢？归并排序的三个问题 23 替换选择算法 24 Knuth 5.4.1R替换选择算法： ● 1. 初始化阶段，读取输入元组至内存，并建立最小堆。 ● 2. 弹出堆顶元组，输出到顺串文件的缓冲区，并记录该元组的排序键为顺串生成完毕。将堆大小重置为N，并重新建堆。重复第2步，开始生成下一个顺串。替换选择算法 25 ● 问题二：合并阶段假设存在N个输入缓冲区，如何高效的比较N个输入缓冲区的最小值，并输出到输出缓冲区？归并排序的三个问题 26 ● 假设顺串(长度为L)分布在K个文件中，顺串合并时需要K个输入缓冲区和1个输出缓冲区，每次选取K个缓冲区的最小值，输出到输出缓冲区。最后，输出缓冲区输出的顺串长度为L*K ●

0 码力 | 52 页 | 2.05 MB | 1 年前
3
Greenplum 精粹文集

析功能都不支持，而 Greenplum 作为 MPP 数据分析平台，这些功能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支持等较弱，特别是在关联时对于三大 join 技术：hash join、merge join、nestloop join 的支持方面，Mysql 只支持最后一种 nestloop join（据说未来会支持 hash join），而多个大表关联分析时等等语言来扩展功能，在后续章节中，我将展现这种扩展是如何的方便，另外，开发新的功能模块、新的数据类型、新的索引类型等等非常方便，只要按照 API 接口开发，无需对 PG 重新编译。 PG 中 contrib 目录下的各个第三方模块，在 GP 中的 postgis 空间数据库、R、Madlib、pgcrypto 各类加密算法、gptext 全文检索都是通过这种方式实现功能扩展的。 4) 在诸如 ACID 事物处理、数据强一致性保证、数据类型支持、独特口基本上 99% 都可以在 Greenplum 上使用，例如 odbc、jdbc、oledb、perldbi、python psycopg2 等，所以 Greenplum 与第三方工具、BI 报表集成的时候非常容易；对于 postgresql 的 contrib 中的一些常用模块 Greenplum 提供了编译后的模块开箱即用，如：oraface、postgis、pgcrypt

0 码力 | 64 页 | 2.73 MB | 1 年前
3
Greenplum数据库架构分析及5.x新功能分享

reserved. Greenplum 架构 6 Pivotal Confidential–Inter nal Use Only 平台概况产品特性客户端访问和工具多级容错机制无共享大规模并行处理先进的查询优化器多态存储系统客户端访问 ODBC, JDBC, OLEDB, etc. 核心MPP 架构并行数据流引擎高速软数据交换机制 MPP Scatter/Gather 索引（B树，位图，GiST）安全性语言支持标准SQL支持，SQL 2003 OLAP扩展支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++）第三方工具 BI 工具, ETL 工具文本分析，数据挖掘等管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter Confidential–Inter nal Use Only 解析器主节点Segment 系统表优化器分布式事务调度器执行器解析器执行词法分析、语法分析并生成解析树客户端主节点接受客户连接，处理请求，执行认证解析器主节点 17 Pivotal Confidential–Inter nal Use Only 优化器本地存储主节点Segment

0 码力 | 44 页 | 8.35 MB | 1 年前
3
PostgreSQL和Greenplum 数据库故障排查

postmaster.opts -rw------- 1 postgres postgres 95 Dec 9 09:02 postmaster.pid 这里是监听哪台服务器，而不是监听哪个客户端，控制哪个客户端 -bash-4.1$ cat postgresql.conf |grep listen_address #listen_addresses = 'localhost' # 表示所有用户 10.10.56.17/32 表示需要连接到主机的IP地址，32表示IPV4 md5 表示验证方式 2018年PostgreSQL中国技术大会连接方式（type）共有三种：local、host、hostssl、hostnossl local使用本地unix套接字 host使用TCP/IP连接（包括SSL和非SSL） “IPv4地址”使用IPv4方式正规的叫法是角色，role）。多个用户以逗号分隔。允许的客户端（ADDRESS）格式为ip-address/mask 采用local连接方式不必填写，该项可以是IPv4地址或IPv6地址，可以定义某台主机或某个网段。认证方法（METHOD） METHOD指定如何处理客户端的认证。常用的有ident，md5，password， trust，reject。

0 码力 | 84 页 | 12.61 MB | 1 年前
3
Pivotal HVR meetup 20190816

基于数据库事务日志的变化数据捕获 9 • 避免人为错误 • 在迁移结束前校验数据 • 支持异构异构平台间数据校验域修复 10 内置监控与报警 • 实时监控HVR进程 • 自动告警 • 与第三方企业监控平台集成 • 丰富的统计报表 LDAP authenticated user; if that’s not configured just OS username Next 天天拍车运用互联网技术，从根本上解决了二手车跨各区域成交和流通效率低下等问题，持续推进行业升级变革。全国二手车经销商传统的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在线竞拍系统，在手机端就能轻松竞拍到全国海量优质车源，收车效率和运营效率得以提升，这有助于二手车经销商专注于车辆整备和二手车零售，加速行业专业化分工、实现规模化发展。同时，天天拍车也正在布局二手车金融、二手车保卖等创新业务。截网络带宽利用率低，且支持数据的安全传输一些事前没有考虑到的问题： 1. 数据质量问题 0000-00-00 00:00:00 28:00:00 2. 数据乱码问题 3. DDL复制 4. 生产端历史数据purge问题 5. …… 参考：https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA Data lake dilemma Big+Open

0 码力 | 31 页 | 2.19 MB | 1 年前
3
Greenplum 新一代数据管理和数据分析解决方案

SQL2B 报表二：查询09年5月份数 32秒 N 同上复杂查询本项测试的目的是通过SQL查询检验Greenplum数据库引擎处理Query计算的响应速度。测试方法：针对数据加载测试中的三张大表，模拟生产业务需求进行复杂SQL语句查询(参看附录)。测试结果如下面两表：语句名 Oracle查询时长 Greenplu m查询时长 GP提升倍数备注 SQL1 1800秒+ 33 8G Xeon CPU – 8G Memory – 6 Hard disks – Price: 25,000 Rmb • Testing query scenario – 比较一：数据库客户端超过370万条记录的查询 – 比较二：通过BO报表工具查询2000万条销售结果报表 Oracle与Greenplum测试结果比较比较一：370 万条记录直接查询比较二：2000 万条记录BO

0 码力 | 45 页 | 2.07 MB | 1 年前
3
Greenplum 编译安装和调试

ath.sh # step 2. 交换集群中所有机器的ssh密钥, 我们这里只有一台机器 $ gpssh-exkeys -h `hostname` # step 3. 生成三个配置文件： env.sh, hostfile, gpinitsystem_config $ cat env.sh source $HOME/gpdb.master/greenplum_path redistribution）；2）广播（broadcast）。最后每个segment执行结束后，将结果发送给 Master。Master 对最终的数据整合（Gather Motion），返回给客户端。 4. 调试 Greenplum MPP 数据库 4.1 调试 Master 节点Backend进程调试 Master 的Backend进程（也称为 QD）和调试单节点的PostgreSQL

0 码力 | 15 页 | 2.07 MB | 1 年前
3

共 22 条前往

页

分类

语言

格式