并行不悖- OLAP 在互联网公司的实践与思考1 并行不悖 – OLAP 在互联网公司的实践与思考 赵飞祥 2 Greenplum现状说明 三 Greenplum体系架构 二 数据仓库体系架构 一 Greenplum开发规范 五 Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— Greenplum扩展规划 六 16 Greenplum现状说明 Greenplum集群现状概述 • 三大Greenplum集群体系 Ø 公司IDC_01机房Greenplum体系 Ø 公司IDC_02机房Greenplum体系 Ø 公司IDC_03机房Greenplum体系 • 服务器资源 Ø 三大Greenplum集群,共用 422 个postgresql实例 Ø 实例分布成为 12台虚拟机,39台物理机 17 Greenplum现状说明 三大Greenplum集群定位分类 • 公司IDC_01机房Greenplum体系 Ø 公司第一套Greenplum集群,网络环境为千兆网 Ø 数据来源为OLTP库,针对小数据量传输和计算,部分实时交互操作 Ø 以对账业务为主,统计计算为辅 • 公司IDC_02机房Greenplum体系 Ø 针对数据来源主要是kfk产生csv文件的业务,不直接从数据库传数0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 精粹文集话说当年 Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。 Big Date2 Postgresql 许可是仿照 BSD 许可模式的,没有被大公司控制,社区 比较纯洁,版本和路线控制非常好,基于 Postgresql 可让用户拥有 更多自主性。反观 Mysql 的社区现状和众多分支(如 MariaDB), 确实有些混乱。 Big Date2.indd 5 16-11-22 下午3:38 6 相信这些特点已经足够了,据说很多互联网公司采用 Mysql 来做 OLTP 的同时,却采用 单个节点上运行能力比其它数据库也快很多,如果运行在 多节点上,其提供性能几乎是线性的增长,这样一个集群提供的性能 能够很轻易的达到传统数据库的数百倍甚至数千倍,所管理数据存储 规模达到 100TB~ 数 PB,而你在硬件上的投入,仅仅是数台一般的 X86 服务器和普通的万兆交换机。 Big Date2.indd 6 16-11-22 下午3:38 Greenplum 精粹文集0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵 不可扩展 针对OLTP进行了优化 主流 10 数据库行业所面临的挑战 0 1 2 3 4 5 6 7 8 9 10 1995 2000 2005 2010 灵活的扩展和配置降低了投资的平均风险 源文件 源数据 源数据 源文件 数据仓库和分析应 用程序 Greenplum数据架构 商用硬件集群 分析 数据 市场 企业数 据仓库 企业数据集合:主要的优势 • 实体整合 • 提高服务器使用率 • 降低总硬件成本 • 降低能量成本 • 可以预估的服务等级 • 确保关键任务的可靠性 • 最出色的性能 • 高度灵活性 • 逐步扩展计算能力 •0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 介绍网、易观、腾云科技、饿了么、金风科技在内大量开源用户。 Greenplum 大数据平台的优势 ● 一次打包到处运行的平台:部署灵活,不受限于硬件环境和平台,无论裸机、私有云、公 有云均可部署。硬件环境的普适性,提供了极大的灵活性,解放了硬件平台的制约和绑定, 从而允许客户灵活选择最适合的方案,降低未来的迁移代价,而开发、运维人员无需要学 习新的数据库处理技术,人力成本也能够大大降低。 集群为全球 2000 强企业生产系统提供服务,稳定性非常高。 ● 具备成熟生态系统的平台:Greenplum 生态非常完善,有大量的合作伙伴。 发展历程 Greenplum 公司成立于 2003 年,2008 年发布 Greenplum 数据库产品。2010 年 Greenplum 被 高端存储领域巨头 EMC 收购,同年 Greenplum 借助 EMC 中国卓越研发集团进入中国,并创建 球有上百来自美国、中国、俄罗斯、日本、英国、德国、芬兰、瑞士等国家的贡献者,获得社会 各界的广泛关注。其中 Greenplum 中文社区尤为活跃,目前约有半数的贡献来自中国开发者,社 区贡献者包括阿里云、中移动等大公司,也有诸多中小公司和数据库爱好者。 开源之后,Greenplum 把敏捷软件开发方法学引入到分布式数据库的开发中,通过使用站立会议、 回顾会议、结对编程、持续集成、测试驱动、单周迭代等敏捷方法建立了高效的快速反馈系统,0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum Database 管理员指南 6.2.1......................................................................................... - 265 - 硬件选型................................................................................................. ......................................................................................... - 272 - 硬件与网络最低要求 ........................................................................................... ........................................................................................ - 341 - 新硬件的规划 ...............................................................................................0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumOT 与 ICT 的融合。 欧拉开源社区通过开放的社区形式与全球的开发者共同构建一个开放、多元和架构包容的软件生态体系,孵化支持多种 处理器架构、覆盖数字设施全场景,推动企业数字基础设施软硬件、应用生态繁荣发展。 openEuler 作为一个操作系统发行版平台,每两年推出一个 LTS 版本。该版本为企业级用户提供一个安全稳定可靠的 操作系统。 openEuler 管理各种规模的数据容量,数据量从数 GB 到数 PB 不等。 Greenplum 环境适用性强与其开放性、真正开源、社区活跃有密不可分的关系,一方面 Greenplum 能够独立于专用 硬件加速提供高性能的纯软件数据平台,无需专用硬件,另外一方面包括核心代码在内的全部开源,社区人员或客户 可最大化自由利用和借鉴 Greenplum 的优秀功能的同时,又可以反哺及影响总体产品研发方向,可以加快产品创新, 基于此 白皮书 9 白皮书 | 9 源代码在各种平台进行编译使用。作为能够独立于专用硬件加速提供高性能的纯软件数据平台,Greenplum 可根据 客户需求在任何位置运行。借助这种“不受限于基础架构”的方法,可以在本地不同的操作系统、不同的芯片环境或多 云环境(私有云或公有云)中部0 码力 | 17 页 | 2.04 MB | 1 年前3
Pivotal Greenplum 最佳实践分享data1,检查所有文件系统,包括xfs文件系统、tmp的使用情况; 日常巡检事项 检查操作系统日志 – gpssh检查所有节点的/var/log/message,grep过滤是否有硬件错误、系统错误等信息 检查数据库日志 – 检查数据库pg_log日志是否有Panic错误、OOM等错误 检查Raid卡和磁盘状态 – 检查磁盘状态是否正常,是否有degrade v1使用omreport工具来检查,DCAv2采用CmdTool2 或MegaCli 问题定位方法 现象-系统突然运行缓慢 对于此类问题,问题原因可能是多方面的,定位比较困难,首先需要判断是硬件原因导致还是应用本身的原因导致,是某一SQL导致还是整体运 行变慢,找到具体的原因后,才能确定应对措施 检查當前所有设备IO,CPU使用情況: – CPU是否繁忙(gpssh –f allhosts 确定是否整体性能慢,还是某一个SQL导致(在pg_stat_activity中按照query_start排序,检查时间最长的SQL) 检查硬件和OS状态 – 查看command Centre中系统监控情況 – MegaCli检查磁片和Raid卡状态 – 检查OS是否有硬件错误告警 – gpcheckperf检查网络和磁片性能 问题定位方法 现象-数据库不能访问 对于此类问题,相对来说比较容易定位。0 码力 | 41 页 | 1.42 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台, 为全国近20万家电商企业提供全面的信息化解决方案。 经过5年多的发展,公司员工从2014年成立之初的9人增加到现在0 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum分布式事务和两阶段提交协议update PostgreSQL和Greenplum采用的策略 思考: 1. MySQL同样采用MVCC,事务恢复的时候为什么需要undo log? 2. 出现新硬件(NVRAM)并不断得到广泛应用,WAL是否适合新硬件特点? (业内的探索:CMU, VLDB 2016, Write-Behind Logging) 20 Version Storage MySQL、Oracle0 码力 | 42 页 | 2.12 MB | 1 年前3
Greenplum机器学习⼯具集和案例模型精确度= 62.8% ● 真正率 = 66% 该模型善于预测不不会点击邮件的⽤用户, 但是⽆无法预测会点击邮件的⽤用户 该模型更善于预测会点击邮件的用户, 这样是用户真正关心的,能为公司带来 价值的用户群体 建模结果 2017.thegiac.com 改良前 改良后 X 对数据集的探索有限 ✓ 在Greenplum里充分探索了数据集 X 对Pivotal产品线不不熟悉 更更好地了了解⽤用户与 APP的交互 ● 对实时API请求进 ⾏行行分类和安全检测 ● 数据量量⼤大,现有数 据分析团队缺乏技 能 客户 数据科学解决⽅方案 ● 某⼤大型跨国⾦金金 融服务公司 ● 移动应⽤用 API 分析 ● 使⽤用Madlib进⾏行行聚 类分析,建⽴立会话 识别模型和主题模 型 ● 建⽴立scoring pipeline, 对新访问 的安全性进⾏行行评估0 码力 | 58 页 | 1.97 MB | 1 年前3
共 16 条
- 1
- 2













