Greenplum Database 管理员指南 6.2.1'password' 设置 Role 的 PASSWORD。如果暂时不打算让该 Role 登陆 数据库,可忽略该属性,如果不指定密码,PASSWORD 会被 设置为 NULL 并且始终无法登录。空密码也可以明确定义为 PASSWORD NULL。 ENCRYPTED | UNENCRYPTED 指定密码是否加密,缺省行为受 password_encryption 参数决定(缺省为 ON)。如果目前的密码已经使用了加密存 序一次只能连接一个DB,而且不可以跨越DB执行查询语句。 关于数据库模版 每个新的数据库都是基于一个模版数据库创建的,这种创建可以理解为模板数据库 的复制,如果基于一个非空的模版数据库来创建,那么该模板数据库中的所有对象和数 据都会一模一样的复制到新创建的数据库中。缺省的数据库模版为template1,在初 始化GP系统初期可以连接到该库,在没有明确指定模版的情况下创建新的数据库将缺 在6版本之前,表空间还不是一个完全独立的概念,其需要依赖文件空间对象,在 6版本之前的文件空间,实际上也是一组分布式的操作系统目录,在每个Instance上 都有一个目录,这些目录的集合,组成了一个文件空间。这一段看起来和刚刚介绍表空 间的几乎一样,是的,没错,在6版本之前,虽然说表空间是依赖文件空间的,但是, 如果这样来描述表空间也是正确的,为什么一般不这样描述呢,因为,文件空间已经把 这个定义做好了,表空间的目录就是这些文件空间的那些目录的子目录,表空间在文件0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 分布式数据库内核揭秘QL 以及 Oracle 等主流数据库均采用拉模型。 拉模型的每个算子都实现了从下层节点获取一条元组的 GetNext 函数,每次调用该函数都会从下 层节点返回一条元组或者 EOF 的 NULL 指针。上层节点不断地调用 GetNext 函数从下层节点获 取数据,直至数据全部获取完毕。 火山模型 postgres=# explain select * from t order by t1 limit0 码力 | 31 页 | 3.95 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商81/206 为指定⽤⼾指定模式搜素路径: ALTER ROLE roleName SET search_path To testSchema,public; 删除空模式: DROP SCHEMA testSchema; 删除⾮空模式: DROP SCHEMA testSchema CASCADE; 4、表格设计 、表格设计 udw 的表格创建类似于 postgresql,由于 udw 采⽤ 使⽤字符型数据类型保存字符串,⽇期或者⽇期时间戳类型保存⽇期类型,数值类型来保存数值。 使⽤ VARCHAR 或者 TEXT 来保存⽂本类数据。不推荐使⽤ CHAR 类型保存⽂本类型。VARCHAR 或 TEXT 类型对于数据末尾的空⽩字符将原样保存和处理,但是 CHAR 类型不能满⾜ 这个需求。请参考 CREATE TABLE 命令了解更多相关信息。 使⽤ BIGINT 类型存储 INT 或者 SMALLINT 数值会浪费存 创建表检查约束 CREATE TABLE products( product_no integer, name text, price numeric CHECK (price > 0) ); 创建⾮空约束 CREATE TABLE products( product_no integer NOT NULL, name text NOT NULL, price numeric 开发指南 Greenplum数据仓库0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum 排序算法7 8 待排序数据 分割阶段 合并阶段 22 ● 问题一:分割阶段只需要顺序扫描一次外存,最简单的策略是读取外存数据,加 载到内存,当内存用满时,执行快速排序等内排序算法,生成一个顺串。之后清 空内存,继续读取外存数据,如此反复,直到所有外存数据处理完毕。该算法生 成的每一个顺串的大小都不会超过内存的大小,而顺串越小,合并阶段的代价 就越高,需要读取外存的次数也越多,有没有办法在分割阶段就生成大于内存 初始化阶段,N+1个缓冲区,其中N个为输入缓冲区和1个为输出缓冲区。其 中,每一个输入缓冲区包含若干个顺串,缓冲区顺串个数服从斐波纳切分布。 ● 2. 从每个输入缓冲区选取开头的顺串,组成N个顺串(可以存在空顺串)。对N个 顺串进行归并排序,排序结果写入输出缓冲区的顺串。此时每个输入缓冲区的 顺串数减1,输出缓冲区顺串数加1。 ● 3. 如果任何一个输入缓冲区的顺串数都大于0,重复第2步。 ● 4.0 码力 | 52 页 | 2.05 MB | 1 年前3
Pivotal Greenplum 最佳实践分享尽量采用一个常用关联字段作为分布键,例如账号、客户号,这个可以提高关联条件的命中率,减少关联时数据重分布 (主要对大表) • 选用分布键同时考虑数据平均分布(一个例子,日志号不是最好的分布键,大量的空值导致资料倾斜) 物理模型经验分享(续) 分区表使用: • 不建议使用二级分区,二级分区不便于管理,而且Parser效率较低; • 二级分区可以用一级分区+Bitmap方式 -ef |grep con#sess_id#|grep –v idle - 如果是某些节点执行时间太长,可以检查数据表分佈是否平均、按照关联条件查看是否有倾斜,例如前面提到的交易表中日志号大量 为空的记录, - 如何是所有节点沒有执行完成,检查是否存在数据问题导致,例如表Join时的笛卡尔积 有些情況下,可能是由于查询计划问题导致的: – ExplainSQL,如何怀疑是查0 码力 | 41 页 | 1.42 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum避免扫描和回收仅包含事务 frozen 元组的页面 l 避免 VACUUM 没有必要的索引扫描 l 避免无用的堆截断尝试并在 VACUUM 期间采取独占锁定 l 提高 VACUUM 删除尾随空堆页面的速度 l 可以选择使用 SKIP_LOCKED 选项来跳过对无法立刻被锁的表进行 VACUUM 和 ANALYZE l 可以使用--jobs 选项并行进行 VACUUMDB 和 V0 码力 | 17 页 | 2.04 MB | 1 年前3
共 6 条
- 1













