并行不悖- OLAP 在互联网公司的实践与思考管理数据库内对象权限 Ø 用户 user : 用户认证权限 Ø pg_hba.conf : 实例权限配置文件 Ø iptables : 防火墙IP访问配置策略 • 账号类型划分 Ø 管理账号 Ø 开发账号 Ø 调度账号 Ø 业务账号 Ø 测试账号 • 账号名称限定 Ø 所有都用小写字母加下划线的方式 Ø 按照命名规则,做到见名知义 37 Greenplum开发规范 Greenplum使用规范 •0 码力 | 43 页 | 9.66 MB | 1 年前3
Pivotal Greenplum 最佳实践分享在金融业,行压缩的数据压缩比在1:6左右,一般采用zlib5级压缩 • 数据压缩对于高并发查询分析系统可以大幅降低IO消耗,提升并行处理、混合负载的性能 分布键使用: • 尽量采用一个常用关联字段作为分布键,例如账号、客户号,这个可以提高关联条件的命中率,减少关联时数据重分布 (主要对大表) • 选用分布键同时考虑数据平均分布(一个例子,日志号不是最好的分布键,大量的空值导致资料倾斜) 物理模型经验分享(续) 以数据批处理为主要功能的系统一般不需建索引 • 以并发查询为主要功能,特别OLTP查询(根据KEY,Attribute等作为筛选条件)的系统按照常用字段建索引。 • 建索引的方法:对于区别度高的字段,如账号、手机号码等使用B-Tree索引,对于区别度低的字段(<10000),采用 Bitmap索引; • 表关联时,一般不需要建索引,如果where条件的筛选性很强,建立索引可以让系统性能提升 •0 码力 | 41 页 | 1.42 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1Read、Alter、Delete 任何数据,包括系统 表的访问和任何数据库操作,因此,保护好 gpadmin 用户账号是很重要的。超级用户 (gpadmin)只应该用于执行特定的系统管理任务(例如备份恢复、故障处理、升级、扩 容等)。一般的数据库访问不应该使用 gpadmin 账号,ETL 等生产系统也不应该使用 gpadmin 账号。不要闲的无聊,试图将 gpadmin 修改为 NOSUPERUSER,弄不好如 Greenplum0 码力 | 416 页 | 6.08 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案•“一切皆可商用”:商业即用型x86 服务器、存储设备、网络 •通过软件很容易将处理能力扩展到 1000s的内核/系统 Greenplum • “黑盒子” • “大铁箱” • 大磁盘 过去Google™ 曾经用来实现信息搜索功能的技术, 现在被Greenplum用于数据仓库 现在的解决方案 12 Greenplum愿景:企业数据集合 13 • 在企业内创建统一的数据运算平台 • 企业所有者可以直接控制其数据实例 1000s商用处理内核 • 将所有处理操作尽量移动到数据附近 计算内核 Greenplu m并行数 据流引擎 对本地磁盘进行直 接的高性能访问 gNet 互连 • 第一个支持互联网级分析技术(由Google普及)的产品 • 采用新的编程模型,在商用硬件上并行处理和执行 • 可以使客户洞察力和数据货币化程度达到前所未有的高度 MapReduce Greenplum MapReduce的优势0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集难于满足数据计算性能指标,传统主机的 Scale-up 模式遇到了瓶颈, SMP(对称多处理)架构难于扩展,并且在 CPU 计算和 IO 吞吐上不 能满足海量数据的计算需求。 分布式存储和分布式计算理论刚刚被提出来,Google 的两篇著名论文 发表后引起业界的关注,一篇是关于 GFS 分布式文件系统,另外一篇 是关于 MapReduce 并行计算框架的理论,分布式计算模式在互联网 行业特别是收索引擎和分词检索等方面获得了巨大成功。 计算,我们会在后面比较这两种方法的优劣性)。 话说当年 Greenplum(当时还是一个 Startup 公司,创始人家门口有 一棵青梅 ——greenplum,因此而得名)召集了十几位业界大咖(据 说来自 google、yahoo、ibm 和 TD),说干就干,花了一年多的时间 完成最初的版本设计和开发,用软件实现了在开放 X86 平台上的分布 式并行计算,不依赖于任何专有硬件,达到的性能却远远超过传统高 昂的专有系统。0 码力 | 64 页 | 2.73 MB | 1 年前3
Pivotal HVR meetup 20190816configured just OS username Next and previous events 11 12 支持广泛的异构平台间数据复制 * HVR5.6还支持z/OS,Google Cloud Storage/Big Query 13 Compare Products 天天拍车是国内领先的二手车竞拍平台,现有核心业务是二手车线上 竞拍。同时,天天拍车还提供上门检测、线上竞拍、包办手续等一站0 码力 | 31 页 | 2.19 MB | 1 年前3
Greenplum机器学习⼯具集和案例Python SQL C++ MADlib 架构 2017.thegiac.com • 是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google 创办人 Larry Page来命名 Image from h_ps://en.wikipedia.org/wiki/PageRank 示例例 - PageRank 20170 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台(开发中) ■ fastpath锁(PostgreSQL合并) 32 Pivotal Confidential–Internal Use Only TPC-B基准测试:环境 基于谷歌云平台(Google Cloud Platform,简称GCP),为5个虚拟主机的集群,包含一 个master主机和四个segment主机,master和segment虚拟主机的配置信息如下 master segment0 码力 | 52 页 | 4.48 MB | 1 年前3
Pivotal Greenplum 5: 新一代数据平台量,且无需卸载再重新加载数据。随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Pivotal Greenplum 目前可在 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,并且同时支持自带使用授权 (BYOL) 配置和以小时为单位的按需配置。只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系 列部署选项,群集便会立即启动运行,可供客户使用。0 码力 | 9 页 | 690.33 KB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum另外随着越来越多的客户将其生产数据集迁移到公有云中,这种灵活性将成倍增长。Greenplum 目前不但可在国外 的 Amazon Web Services、Microsoft Azure 和 Google 云平台上运行,也可以运行在国内云平台上,如阿里云、 腾讯云等,只需选择要在群集中调配的数据节点数量(不超过预定义的最大大小),然后选择一系列部署选项,群集 便会立即启动运行,可供客户使用,国内外有相当数量的客户已选择云上0 码力 | 17 页 | 2.04 MB | 1 年前3
共 21 条
- 1
- 2
- 3













