Greenplum 介绍名第四左右。 采用开源方案,不担心后门问题,不担心被锁定。开源还可以构建更好的 生态。 ● 采用敏捷软件开发方法开发的平台:Greenplum 采用敏捷方法开发,实现了快速迭代、持 续发布和质量内建。2017 年 Greenplum 发布了 10 个版本,以前发布一个版本需要 1 个 月左右,现在只需要十几个小时。 ● 具备企业级稳定性的平台:Greenplum 经过十多年发展,有大量活跃客户,大量数百节点 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统, 大大提高了产品的质量和客户的满意度。Greenplum 5.0 是开源之后发布的第一个稳定版本,大 约保持 1 个半月一个版本的发布速度。Greenplum 主干分支(master)开发非常活跃,众多社区 期待的特0 码力 | 3 页 | 220.42 KB | 1 年前3
Pivotal HVR meetup 20190816支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题 0000-00-00 00:00:00 28:00:00 2. 数据乱码问题 3. DDL复制 4. 生产端历史数据purge问题 5. …… 参考:https://mp.weixin.qq0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程)0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1通过外部表(External Table)支持高速并行数据装载。外部表可以使用[单条记 录出错隔离]模式,以允许在装载数据过程中将出错的数据记录下来。可以设置错误容 忍的阈值,以实现对数据装载质量的控制。也可以对错误信息进行分析,以帮助改善数 据装载的质量。 结合使用外部表和 GP 的并行文件分发服务(gpfdist),管理员可以实现最大化 的利用网络带宽资源以实现高速并行装载。 上图展示了 GP 正确的记录可以正常的导入目标表中。通过该子句可以设置错误记录隔离的阈值,允许 按照百分比(PERCENT)或者记录数(ROWS)来限制,当格式错误的记录数量超过设置的 阈值,整个导入操作仍然会失败,这个阈值的设定可用于控制数据质量,确保在有大量 数据异常时可以失败报错。这个阈值,是针对每个Primary进行统计的,并不是全局 统计。 当格式错误的记录数量没有达到设置的阈值,对外部表的查询,整体是成功的,错 误的记录会 误的记录会被隔离,还可以选择是直接丢弃这些错误的记录,或者记录到日志信息中 (通过在SEGMENT REJECT LIMIT子句前加上LOG ERRORS子句实现)以便进一步的 处理(比如,找到错误的原因,可以有助于改善数据质量)。 当指定了SEGMENT REJECT LIMIT子句,GP读取可读外部表时,就开启了单行 错误隔离模式,对于多字段、少字段、字段数据类型不匹配、编码错误等,都可以进行 隔离,但不会对约0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum个,其中核心数据库引擎用例 534 个,隔离级别用例 240 个,失败 1 个(疑似虚机资源问题)。其它功能测试若干,手动验证用例 2 个(SSL 工具版本问题),管理工具脚 本用例 455 个。整体质量良好。 测试活动 tempest 集成测试 核心引擎 全部 534 用例通过 隔离级别 240 用例失败 1 个 其它 手动验证用例 2 个 管理工具脚本 全部 4550 码力 | 17 页 | 2.04 MB | 1 年前3
共 5 条
- 1













