Pivotal HVR meetup 20190816
需求:利用GP自建数据仓库面临的数据集成问题 ➢ 支持MySQL的全量以及增量备份 ➢ 支持Oracle的全量以及增量备份 ➢ 支持SQL Server的全量同步 ➢ 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp Products 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 16 Compare Products ➢ 支持全量同步,但增量同步延时,数据量越大,延时更久。 ➢ JDBC驱动强依赖。 ➢ 版本更新不及时,对GreenPlum新版本无法持续性支持,不稳定。 ➢ 需开发人员支持,二次开发或脚本支持,开发时间成本和人力成本高。 ➢ 支持 weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 18 Compare Products ➢ 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输 一些事前没有考虑到的问题: 1. 数据质量问题0 码力 | 31 页 | 2.19 MB | 1 年前3并行不悖- OLAP 在互联网公司的实践与思考
Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 数据的存储和计算 —— OLAP集群 • 4 结果数据的展现0 码力 | 43 页 | 9.66 MB | 1 年前3Greenplum 排序算法
student, class_enroll where student.id = class_enroll.sid; 归并连接 45 ● 聚集中的去重操作同样可以基于排序算法完成 ● Step 1: 延时执行转移函数,tuplesort_putdatum(peraggstate->sortstate, value, isnull); ● Step 2: 排序, tuplesort_perform0 码力 | 52 页 | 2.05 MB | 1 年前3
共 3 条
- 1