Greenplum 精粹文集的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 发(对应到 Postgresql 就是社区),还可充分利用到社区的源源不 断的创新能力和资源,让产品保持持续旺盛的生命力。 这也是我们在用户选型时,通常建议用户考察一下底层的技术支撑 是不是有好的组织和社区支持的原因,如果缺乏这方面的有力支持 或独自闭门 至一个运行在单节点上的 GreenplumDB 也是一个小型的并行计算架 构,一般一个节点配置 6~8 个实例,相当于在一个节点上有 6~8 个 Postgresql 数据库同时并行工作,优势在于可以充分利用到每个节点 的所有 CPU 和 IO 能力。 Greenplum 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到 相比一些其它传统数据仓库的 Sharedisk 架构,后者最大瓶颈就是在 IO 吞吐上,在大规模数据处理时,IO 无法及时 feed 数据给到 CPU, CPU 资源处于 wait 空转状态,无法充分利用系统资源,导致 SQL 效 率低下: 一台内置 16 块 SAS 盘的 X86 服务器,每秒的 IO 数据扫描性能约在 2000MB/s 左右,可以想象,20 台这样的服务器构成的机群 IO 性能0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1置错误容 忍的阈值,以实现对数据装载质量的控制。也可以对错误信息进行分析,以帮助改善数 据装载的质量。 结合使用外部表和 GP 的并行文件分发服务(gpfdist),管理员可以实现最大化 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP 外部表和 gpfdist 是如何配合,以实现高速数据装载的,该模式 的性能是完全线性扩展的,数据直接在 gpfdist 和 Primary 的限制中,那么 GP 的 cgroup 则会嵌套在上层 的 cgroup 中,上层的系统为 GP 配置了 60%的系统 CPU 配额,GP 的资源组配置了 90% 的 CPU 配额,那么 GP 可以利用的系统 CPU 为 60% x 90% = 54%。 嵌套的 cgroup 不影响基于外部组件(如 PL/Container)的资源组对内存的配额, 只有 GP 的资源组的 cgroup 独占剩余的 CPU Core 的数量 ÷ 机器上 CPU Core 的总数 × 100 × gp_resource_group_cpu_limit 参数的值 = CPU_RATE_LIMIT 资源组可利用的 系统 CPU 资源的总百分比。CPUSET 型的资源组,CPU 资源百分比也需要从总数中扣 除,只不过,资源的配额,采用的是固定 CPU Core 的方式来实现,目的是避免与其 他资源组的争抢。0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum............................................................................................. 11 利用容器实现安全分析 .......................................................................................... 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 Greenplum 有适用于多种环境的使用及实践,非常契合如今中国本土客户越来越多样化的应用业务基础环境。 Failover Greenplum 在 OLAP 方面继续保持领先与创新,打造统一分析全平台,综合多种技术给用户提供了分析便利,可以 选择自己擅长的工具及利用遗留的知识和技能,特别适合拥有多种技能的团队。 利用容器实现安全分析 PL/Container 扩展是一个接口,允许 Greenplum 数据库与 Docker 容器交互,以在容器中执行用户定义函数 (UDF),这样方便数据科学家可以在不需要0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal HVR meetup 20190816至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare Products 需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题 0000-00-00 00:00:00 28:00:00 2. 数据乱码问题 3. DDL复制 4. 生产端历史数据purge问题0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例Analysis Nearest Neighbors • k-Nearest Neighbors 成熟的数据科学学习库 2017.thegiac.com • 更好的并行度 • 算法充分利用 MPP 架构实现并行 • 更好的可扩展性 • 算法随着数据扩充而线性扩展 • 更高的预测精准度 • 适用更多数据,而不是抽样 • 顶级 ASF 开源项目 • 社区驱动开发模式 2017.thegiac.com 改良前 改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 ✓ 在Greenplum上充分利用了MADlib 和PL/X X 在SAS和Excel上有很多⼿手动流程 ✓ 在Greenplum内部实现了了流程⾃自动 化 X 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码0 码力 | 58 页 | 1.97 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台,系统默认使用传统查询 优化器,但自 Greenplum 5 起,GPORCA 将成为默认查询优化器。它能够通过并发的混合工作负载处理多种复杂查询, 并可提高查询性能。2 这样一来,大型团队就可以利用高级分析和多元化工作负载并行处理多个分析用例,针对大型数据卷实现较高的分析查询 性能。GPORCA 的强大之处在于 能够以并行方式针对提交的 SQL 语句计算大量可能的查询计划。为了生成最快的计划,GPORCA (CTE),这是指仅用于一个查询的临时表,通常在分析工作负载中十分常用。例如, 在 TPC-DS 中,111 个查询中有 46 个使用了 CTE。GPORCA 为 WITH 子句引入了一种新的生成者 - 使用者模式。利用该模 式,只需计算一个复杂表达式一次,便可由多个操作符使用其计算输出。这就使得 Pivotal Greenplum 能够处理复杂得多 的 CTE,因为它不必将其完全展开,只需对其进行动态处理即可。GPORCA0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum上云与优化为该用户放开部分superuser的权限 查看其它用户数据 查看所有连接信息 杀连接 创建和删除插件 2016Postgres中国用户大会 解决OOM问题 实例的OOM有时很频繁,同时OOM很难提前监控 我们的办法 利用外部脚本监控cgroup中的内存统计 发生内存水位较高时,将实例移入公共 cgroup;同时发出cancel query信号给内核 水位下降时移回实例的cgroup 2016Postgres中国用户大会0 码力 | 26 页 | 1.13 MB | 1 年前3
Pivotal Greenplum 最佳实践分享垃圾空间浪费存储空间 o 垃圾空间影响查询性能 注:delete all用truncate代替,truncate无需回收垃圾空间 垃圾空间回收 Vacuum:标记垃圾空间为可再利用 Vacuum用于将数据表垃圾空间标记到FSM(自由空间映射),一般也不回收空间,当往该表插入新数据时,数据库会重 新这些空间。 FSM驻留在内存中,FSM的大小必须足够标记数据库中的所有过期记录。如果尺寸不够大0 码力 | 41 页 | 1.42 MB | 1 年前3
共 8 条
- 1













