Greenplum机器学习⼯具集和案例www.top100summit.com Greenplum机器器学习⼯工具集和案例例 姚延栋 Pivotal 研发技术总监 2017.thegiac.com • Greenplum ⼤大数据平台 • Greenplum 机器器学习⼯工具 • Greenplum 机器器学习案例例 ⼤大纲 2017.thegiac.com Greenplum: 新一代开源大数据平台 Gemfire SQL 语法支持 需要提升 磁盘数据 不是核心焦点 并发性能 不是核心焦点 大数据关联 不是核心焦点 2017.thegiac.com ⽤用户案例例 1 Greenplum + MADlib 助⼒力力邮件营销 2017.thegiac.com 问题 ● 邮件⼴广告点击预测 模型不不够精准,需 要更更好的邮件营销 策略略 代码复杂冗余,很多数据类型 转换 ✓ 代码更更精简,更更便便于维护的代码 X 原始模型预测效果不不理理想 ✓ 新模型能够更更精准地预测⽬目标客 户 商业影响 2017.thegiac.com 用户案例例2 基于API日志的⾦金金融产品⽤用户分析 2017.thegiac.com 问题 ● 更更好地理理解不不同种 类的⽤用户 ● 更更好地了了解⽤用户与 APP的交互 ●0 码力 | 58 页 | 1.97 MB | 1 年前3
PostgreSQL和Greenplum 数据库故障排查• 赵振平,太阳塔技术总监 • 电子工业出版社签约作家 • 腾讯最具价值专家(TVP) • 计算机畅销书作家 • 贵州省省管专家 • 国家首批大数据高级职称 • 出版了技术专著《Oracle数据库精讲与疑难解析》 • 出版了技术专著《成功之路:Oracle 11g学习笔记》 • 出版了技术专著《IT架构实录》 微信号:laohouzi999 2018年PostgreSQL中国技术大会 微信号:laohouzi9990 码力 | 84 页 | 12.61 MB | 1 年前3
Greenplum数据仓库UDW - UCloud中立云计算服务商Json处理函数 接⼊第三⽅ 接⼊第三⽅ BI ⼯具 ⼯具 ⼀、 UDW 接⼊ Zeppelin ⼆、 UDW 接⼊ SuperSet UDW 使⽤案例 使⽤案例 案例⼀ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 案例⼆ 基于UDW实现⽹络流分析 PXF 扩展 扩展 配置 PXF 服务 创建 EXTENSION 读写 HDFS ⽬录 Greenplum数据仓库 优刻得 5/206 概览 概览 产品架构 快速上⼿ 操作指南 访问UDW数据仓库 数据导⼊ 开发指南 udw优化指南 表膨胀 UDW中Json类型 接⼊第三⽅ BI ⼯具 UDW 使⽤案例 Pxf 扩展功能 迁移数据 使⽤ pg_dump 使⽤ pxf 外部表 FAQs 数据仓库价格 概览 Greenplum数据仓库 UDW Copyright © 2012-2021 com/airbnb/superset 接⼊第三⽅ BI ⼯具 Greenplum数据仓库 UDW Copyright © 2012-2021 UCloud 优刻得 176/206 UDW 使⽤案例 使⽤案例 案例⼀ 案例⼀ 利⽤ 利⽤ logstash+Kafka+UDW 对⽇志数据分析 对⽇志数据分析 Logstash 是⽬前⽐流⾏、使⽤较多的⽇志收集和管理系统,Kafka也是企业常⽤的分布式发布-订阅消息系统,UDW(UCloud0 码力 | 206 页 | 5.35 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1实际上,正如前面所述,RLE压缩算法并没有什么实用意义,忘记这个事情就好了, 好好使用ZSTD就对了。 在列上设置压缩 注意:编者不希望读者浪费很多时间来学习这部分的知识,所以,先把观点列出来,编 者根据10年的经验判断,除了作为一块知识来学习外,可能永远也不需要在每个字段 上设置压缩,因为那是极其多余和毫无意义的。在真实的使用环境中,往往列存储的选 择都应该是极其少见的,因为列存储的选择需要满足多方面条件,选择列存的往往是那 注意:GP处理视图的方式和处理函数的方式完全不同,对于函数,GP存储的是字符串, 创建时不会解析为查询树,因为函数中的具体执行情况无法预知,只有具体的参数和具 体的数据在执行时才能确定涉及的对象,所以,没有办法精准获取函数的依赖关系。编 者在社区遇到很多次关于函数涉及的表如何查询的问题,这个的确是无能为力的,即便 Greenplum Database 管理员指南 V6.2.1 版权所有:Esena(陈淼 +86 18616691889) ance记录数的标准差除以平均 值再乘以100来表示倾斜的严重程度,值越大倾斜越严重。 gp_toolkit.gp_skew_idle_fractions视图,一个非常复杂的视图,经过编 者了解,该视图,会计算Instance中记录数的最大值与平均值的差值,然后除以 最大值,得到一个不大于1的浮点数,值越大倾斜越严重。不过,在获取表的信息 时与gp_toolkit.gp_skew_c0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案解我们的客户及其需求。” PLDT的Alexander Seminiano Sun DW Oracle 1 10 15 mins 20X 5 hours Greenplum现有国内客户案例分析 • 巨人网络(征途游戏):财务分析、游戏在线分析 • 阿里巴巴:B2B、B2C、点击、在线分析 • 上海航空:航线结算分析 • 东方航空:航线结算分析 • 民族证券:数据中心,证券投资分析 • 深发展银行:数据中心兼ODS • 李宁公司:销售和库存分析 • 公安部:图像分析 • 国家海洋局:海洋数据采集与分析 • 上海安吉物流:收入&市场分析、客户经理跟踪分析 • 中远集团:收入、发展、销售分析 案例分享(征途游戏) • 现有运行平台 – 服务器平台:SUN X4600一台,4路dual-core CPU 共8core,32GB – 存储平台:NetApp一台 – 网络平台:千兆网络 – 软件平台:RedHat 真实应用测试 – DWA测试结果:完成应用的全过程仅耗时48分钟。 – 客户投产环境:客户11月份月度处理时,完成本项任务需要65小时。 结论:如果采用DWA替代现有环境,获得超过80倍的性能提升。 案例分享:阿里巴巴 • 业务用例 • 通过分析用户的网络点击日志,进行产品关联分析,让客户可以 快速的找到相近产品 • Existing Solution • Oracle • Facts •0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集方面的投入。这些系统包括:历史数据系统、ETL 临时数据区、数 据交换平台等等。 切记,千万不要为了大数据而大数据(就好像不要为了创新而创新一 个道理),否则,你项目最后的产出与你的最初设想可能 将差之千里,行业内不乏失败案例。 最后,提一下,GreenplumMPP 数据库支持用“Hadoop 外部表“方 式来访问、加载 HadoopFS 的数据,虽然 Greenplum 的 Hadoop 外部 表性能大幅低于 MPP 特点规划好硬件采购,并合理的实施,可以避免后面很多的问题。 Greenplum 不挑硬件:无论是 Cisco 还是华三的交换机;无论是 IBM、DELL、HP 还是华为、浪潮的 PC 机;无论是刀片还是 PC 在 国内外都有大量的案例;Greenplum 不挑系统:无论是 RedHat、 CentOS 还是 SuSe,Greenplum 都可以畅快的运行,你甚至可以在 自己的 MAC 笔记本上直接安装、玩耍;但 Greenplum 或 6 个为宜。 同样,作为整体架构设计的重要 组成部分,ETL 服务器、监控管 理,备份策略如何规划,如何高 效组网都得在前期考虑好。在我 们的成功案例中,同一个企业级 数据平台中 Greenplum 集群和 Hadoop 集群配合运作的案例越 来越多。在中国移动的大数据架 构规范中,云化 ETL 是一个重 要的组成部分。云化 ETL 就是构架在 Hadoop 集群之上。Greenplum 提供了专用产品模块0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal HVR meetup 2019081617 Compare Products 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 18 Compare Products ➢ 案例需求全部满足 ➢ 生产环境实验同步 ➢ 支持全量同步、增量实时同步,无延时 ➢ 支持多种数据同构、异构数据同步 ➢ 过滤器制作规则处理异常数据 ➢ 可以达到BI系统的实时要求 ➢ 网络带宽利用率低,且支持数据的安全传输0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台SELCT diskquota.set_schema_quota ('s1', '1 MB'); SELECT diskquota.set_role_quota ('u1', '1 MB'); 客户案例 ■ 通过kafka近实时(500ms~1s) 间隔加载:100万/s ■ 简单查询1000并发:1s内返回 ■ 复杂关联查询:s级返回 数据量 机器数 表个数 索引个数 并发数 插入间隔 平均时延0 码力 | 52 页 | 4.48 MB | 1 年前3
共 8 条
- 1













