完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum厂商的深入合作的典型模板,大大丰富了中国本地国产化应用生态。本白皮书着眼介绍了欧拉开源操作系 统平台架构、创新性及核心特点, 同时介绍了 Greenplum 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 欧拉开源操作系统是一款面向数字基础设施的操作系统,支持服务器、云计算、边缘计算、嵌入式等应用场景,支持多 样性计算,致力于提供安全、稳定、易用的操作系统。 Greenplum 与欧拉开源社区强强联手,不仅是双方业务用户所期盼的,同时也是 Greenplum 社区与对中国本地开源社 区的深入合作尝试。本次合作对双方打造丰富应用生态注入了鲜活动力! 完全兼容欧拉开源操作系统的 HTAP 数据平台 白皮书 7 白皮书 | 7 1. 引领内核创新 云原生调度增强:针对云场景在线和离线业务混合部署场景,创新 CPU 调度算法保障在线业务对 CPU 的实时抢占及抖 动抑制,创新业务优先级 00M 内存回收算法保障在线业务安全可靠运行。 • 新文件系统 EulerFS:面向非易失性内存的新文件系统,采用软更新、目录双视图等技术减少文件元数据同步0 码力 | 17 页 | 2.04 MB | 1 年前3
并行不悖- OLAP 在互联网公司的实践与思考Greenplum运维体系 四 Greenplum扩展规划 六 3 数据仓库体系架构 业务数据与数据使用归类 时间维度:过去 - 现在 - 未来 (数据的生命周期) • “现在”的数据 —— OLTP • “过去”的数据 —— OLAP • “未来”的数据 —— 趋势分析 4 数据仓库体系架构 业务数据与数据特点 • 现在的数据 —— OLTP Ø实时,在线系统,客户使用 Ø事务小,频率高,并发高 数据仓库体系架构 OLAP场景举例 • 业务相关场景 Ø用户状态 (注册数,活跃数,并发量,峰值) Ø金币状态 Ø道具/物品状态 Ø对账状态 Ø活动反馈 • 架构相关场景 Ø不同数据量,不同事务特点,不同查询需求 Ø历史数据归档与冷热分离 Ø实时与延时需求的权衡 6 数据仓库体系架构 数据流转过程 • 1 业务数据的产生 —— OLTP • 2 业务数据的中转 —— ETL服务器 • 3 MPP ShareNothing 海量并行处理+完全无共享 Ø cpu计算能力 Ø 数据从Disk上的I/O吞吐性能 Ø master管理节点 Ø segment数据节点 • greenplum的核心功能 Ø 无共享MPP Ø 多态存储 Ø 高效数据加载 (gpfdist+外部表,每小时4TB+) Ø 分布分区 Ø 数据压缩 Ø 外部访问 15 Greenplum现状说明 三 Greenplum体系架构0 码力 | 43 页 | 9.66 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata, Oracle • FIM受众网络技术和运营部门的产品执行副总裁 Arnie Gullov-Singh 24 净数据规模 (TB) 2008年9月 2008年12月 客户实例:Reliance Communications • 业务问题 • CDR安全合规性和分析 • 已有方案 • Oracle • 数据规模 • 20TB,每天增长400GB • 优势 • 将响应时间缩短90% “借助运行Greenplum数据 的副总裁和主管(决策支持系统)Raj Joshi 25 响应时间 (分) 以前的数据库 客户实例: PLDT • 业务问题 CDR分析 • 竞争对手 Oracle • 数据规模 2200万用户 / 7亿次交易 • 优势 数据装载时间减少8倍,查询速度 从2小时提高到15分钟 “我们业务所面临的一个关键挑战就是要处理很大的数据量。 Greenplum技术可以帮助我们更好地了 解我们的客户及其需求。”0 码力 | 45 页 | 2.07 MB | 1 年前3
基于 Greenplum 打造SaaS化电商服务平台聚水潭成立于2014年1月,创始人兼CEO骆海东拥有超过二十年传统 及电商ERP的研发和实施部署经验,公司核心管理团队来自于阿里巴 巴、亚马逊、中国平安和麦包包等知名公司。 聚水潭创建之初,以电商SaaS ERP切入市场,凭借出色的产品和服务, 快速获得市场领先地位。随着客户需求的不断变化,如今聚水潭已经 发展成为以SaaS ERP为核心,集多种商家服务为一体的SaaS协同平台, 为全国近20万家电商企业提供全面的信息化解决方案。 中 间 库 商 品 库 核 心 库 辅 助 库 账 号 库 店 铺 库 其 他 库 业务系统 数据仓库 G P 1 G P 2 G P 2 5 交 换 库 •业务库 •分库分表 •一组五个数据库 •250组数据库+公共库 •每15到20天增加10组 •31个GP集群 •30个业务数据集群, 一个数据交换集群 •ETL处理,大部分在线 分析查询采用GP •极端复杂查询 拆分 析,有待验证 数据集市 报表 CRM 胜算 …… …… …… …… 数据仓库演变 2015 2016 2017 2018 2019 2014原始阶段 2016.4全新报表界面:梳理业务、开发报表 2016.9自建GP集群,上线工作量统计 2018.3HDB4PG 2017.1报表全面迁移至GP 2017.6集群拆分 2018.9全面切换HDB4PG 2018.6ADB储备、20190 码力 | 7 页 | 547.94 KB | 1 年前3
Greenplum 精粹文集X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 大神器出现了。在 那一年多的时间里,大咖们很大一部分精力都在不断的设计、优化、 开发 Interconnect 这个核心软件组件。最终实现了对同一个集群中多 个 Postgresql 实例的高效协同和并行计算,Interconnect 承载了并行 查询计划生产和 Dispatch 分发(QD)、协调节点上 QE 执行器的并 要基于 Postgresql? 这个问题大致引申出两个问题: 1) 为什么不从数据库底层进行重新设计研发? 所谓术业有专攻,就像制造跑车的不会亲自生产车轮一样,我们只 要专注在分布式技术中最核心的并行处理技术上面,协调我们下面 的轮子跑的更快更稳才是我们的最终目标。而数据库底层组件就像 车轮一样,经过几十年磨砺,数据库引擎技术已经非常成熟,大可 不必去重新设计开发,而且把数据库底层交给其它专业化组织来开 语言是专 门为统计和数据分析开发的语言,各种功能和函数琳琅满目,SQL 语言不仅适合开发人员,也适用于分析业务人员,大幅简化了数据 的操作和交互过程。 而对 MapReduce 编程明显是困难的,在原生的 Mapreduce 开发 框架基础上的开发,需要技术人员谙熟于 JAVA 开发和并行原理, 不仅业务分析人员无法使用,甚至技术人员也难以学习和操控。为 了解决易用性的问题,近年来 SQL-0N-HADOOP0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台Greenplum 5。本白皮书着眼介绍 Greenplum 5 的核心特征,及多年来围绕该平台发展出的生态系统。 摘要 Pivotal Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在多云环境(公 有云和私有云)中,也适用不同的本地配置。其大规模并行处理 (MPP) SQL 的设计核心是一个称为 GPORCA 的新一代查 询优化器。GPORCA 专 Greenplum 的后续发展,Pivotal 于 2015 年决定将其产品 Greenplum Database 开源。由此产生的最积极结果是 Greenplum Database 社区规模迅速扩大。该社区的成员为核心组件的开发贡献了力量,并且已经受益于 Pivotal 长久以来 在市场上取得的成功。从 2017 年初开始,他们每个月发布一次 Greenplum 更新,使其保有快速而可靠的创新力。 此次推 出的 Greenplum 社区的模式,他们对代码库进行了重构,这样一来,便可以更轻松地从最新版本(未来 的 PostgreSQL 9.X 和 10)中纳入 PostgreSQL 新增功能。 新一代 数据平台 IT 人员 开发 人员 业务 分析师 数据 科学家 灵活 部署 数据源和数据管道 Spring Cloud Data Flow ETL 本地存储 HDFSS 云对象 存储 GemFire Spark 其他 RDBMSes0 码力 | 9 页 | 690.33 KB | 1 年前3
Pivotal HVR meetup 20190816based CDC and Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时,天天拍车也正在布局二手车金融、二手车保卖等创新业务。截 至目前,天天拍车已在全国超过50个多城市设立线下交易服务中心。 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 14 Compare0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 介绍业裸机、容器、私有云和公有云中。值得一提的是,作为 OLAP 型的大数据平台, Greenplum 同 时还能够支持涵盖 OLTP 型业务的混合负载,从而帮助客户真正打通业务-数据-洞见-业务的闭环。 目前,Greenplum 已经为国内外各行各业客户所广泛使用,支撑着全球各大行业的核心生产系统, 其涉及领域涵盖金融、保险、证券、通信、航空、物流、零售、媒体、政府、医疗、制造、能源 等。其中,国际客0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum机器学习⼯具集和案例Spark 算法库 易用性 需要编程 查询优化 成熟度稍差 内存和流处理 通过 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac 2017.thegiac.com 数据源 • 客户数据 - 购买 - 预定 - 营销 - 在线注册 - ⽹网⻚页浏览历史 - 地理理信息数据 - 业务部⻔门信息 - ⽹网站⽤用户信息 • TB 级别数据 • 1000+ 特征 平台 建模⼯工具 PL/pgSQL 数据和技术预览 2017.thegiac.com0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1作,用户可以像使用一个普通的单机数据库那样,进行访问和执行 SQL 操作。其中 Master 是整个系统的访问入口,负责处理客户端的连接和 SQL 命令、协调系统中的 其他实例协同工作,计算实例负责管理和处理具体的业务数据,并将处理结果反馈给 Master。 这一章节介绍组成 GP 数据库系统的组件及如何协同工作: 管理节点:Master 计算实例:Instance 管理节点:Master Master 作为 GP 的访问入口,主要负责处理客户端连接的访问以及用户提交的 SQL 语句的解析、生成执行计划、优化执行计划等。Master 不存储业务数据,只存储 用于维持系统运行的全局信息,比如,对象定义信息,统计信息等,Master 非常重要, 如果 Master 丢失,即便是原厂专业技术支持,也不能保证恢复所有信息。 Master目 版本和 6 版本的适配和改造,主要服务商业付费用户。 Master 上存储着全局系统表(Global System Catalog)(包含数据库系统自 身元数据的数据表),但不存储任何业务数据,业务数据只存储在 Instance 上。 Master 负责客户端的登录认证、SQL 命令接收并生成并行执行计划、对执行计划进行 优化、在 Instance 之间分发执行计划、整合 Instance0 码力 | 416 页 | 6.08 MB | 1 年前3
共 20 条
- 1
- 2













