Pivotal Greenplum 5: 新一代数据平台Teradata SQL Apache MADlib Python. R、 Java、Perl、C Apache SOLR PostGIS ANSI SQL 其他数据库 SQL ML/统计数据/图形 程序化 文本 地理空间 公有云 私有云 完全 托管云 本地 BI / 报告 自定义应用 机器学习 AI SQL 大规模 并行处理 (MPP) PB 级数据 加载 查询 优化器 (GPORCA) Workload 此外,Greenplum 5 还支持最新版 Apache MADlib(可用 SQL 进行机器学习和图分析),支持在 Apache Solr 数据库内实 施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接受 来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地理信息 系统 (GIS)0 码力 | 9 页 | 690.33 KB | 1 年前3
Greenplum开源MPP数据库介绍dispatcher)负责下发查询,QE(query executor)负责执行查询 Ø 查询的生命周期: 1) 客户端连接coordinator, coordinator fork出QD 2) QD 拿到纯文本的查询,解析、优化、生成一个树形结构的分布式计划 3) QD 生成slice结构,生成每个slice的一系列进程结构(Gang) 4) QD 连接segment节点,segment节点fork出QE,QE执行分布式计划 Greenplum生态:Madlib Ø 在数据库内做机器学习 Ø 非常多的算法库 Confidential │ ©2022 VMware, Inc. 17 GPText Ø MPP化的Apache Solr,用于全文检索和文本分析 Ø 举例: q 十个单词内包含Alan和Clinton:“Alan Clinton”~10 Confidential │ ©2022 VMware, Inc. 18 PL Languages/Container0 码力 | 23 页 | 4.55 MB | 1 年前3
Greenplum 介绍HBase、S3、Gemfire、各种数据库和文件等,不需要移动数据,避免了数据加载的复杂 性,和其带来的数据不一致的问题。 ● 支持各种数据格式的平台:不管是结构化、半结构化(XML、JSON、KV)还是非结构化, 譬如文本数据、GIS 数据、图数据等。 ● 具有强大内核的平台:Greenplum 具有强大的内核技术,包括数据水平分布、并行查询执 行、专业优化器、线性扩展能力、多态存储、资源管理、高可用、高速数据加载等。 SQL 成为了数据平台的万向头,向上可以连接各种 BI 工具、可视化工具和数据分析工具, 向下可以连接各种 ETL 工具、各种数据源和各种格式的数据等。 ● 集成数据分析平台:支持商业智能(BI)、文本、GIS、图、图像等。流式支持也在开发 中。通过 Pivotal 开源的 Apache 顶级项目 MADlib,Greenplum 可以在数据内部运行 50 多种数据分析和机器学习算法。MADlib0 码力 | 3 页 | 220.42 KB | 1 年前3
Greenplum机器学习⼯具集和案例MPP、优化器、多态存储、灵活分区、高速加载、PG内核 • 强大的灵活性、可扩展:PL/X、Extension、PXF、外部表机制 • 完善的标准支持:SQL、JDBC、ODBC • 集成数据平台:BI/DW、文本、GIS、图、图像、机器学习 • 开放源代码,持续大力投入 • 敏捷方法学:快速迭代、持续发布、质量内建 • 企业级稳定性,成熟生态系统 2017.thegiac.com Greenplum: 机器学习工具集 2017.thegiac.com • PL/X:各种语言实现自定义函数(存储过程) • MADLib: 数据挖掘、统计分析、图(Graph)等算法 • GPText:文本检索和分析 • GeoSpatial:地理信息数据分析 • Image: 图像数据分析 Greenplum 机器器学习⼯工具集 2017.thegiac.com Greenplum0 码力 | 58 页 | 1.97 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案Greenplum数据引擎 全球最强大的分析数据仓库 海量并行查询 • 可以比以往更快地获取 查询结果 • 在数据增长的同时确保 高性能分析 统一的分析处理功能 • 为数据仓库、市场、 ELT、文本挖掘、统计 运算提供统一的平台 • 可以使用SQL、 MapReduce、R等在 所有层次上对任何数 据进行并行分析 19 通过经济的方案扩展 到千万亿字节规模 • 不用担心数据增长或 者开始的规模太小 处理在任何地点存储的任何类型的数 据 • 将SQL的普遍性与MapReduce的灵 活编程模式结合起来 • 针对业务关键分析功能提供企业级集 成、支持和发布 • 为新一代分析处理技术开启了大门– 其中包括文本分析、图形分析、数据 挖掘、机器学习以及更多内容 客户实例:福克斯互动媒体 (Fox Interactive Media) • 业务问题 • 改进定位广告 • 竞争对手 • Teradata0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum Database 管理员指南 6.2.1下面的例子展示如何编辑 Master 上的 pg_hba.conf 文件从而允许远程的客户 端通过加密认证的方式访问数据库。 编辑 pg_hba.conf 文件 1. 使用文本编辑器(例如 VI)打开$MASTER_DATA_DIRECTORY/pg_hba.conf 文 件,并进入编辑状态。 2. 为每类需要允许的连接添加一行记录。记录是被顺序读取的,所有记录应该被有序 。 GP数据库支持高速并行数据导入和导出,对于数据量很小的导入和导出场景,也 可以选择非并行的方式(原自PostgreSQL的COPY命令)。 GP支持导入和导出多种外部数据,比如,文本文件,Hadoop文件系统文件,Amazon S3,Web数据源等。 SQL命令中的COPY命令,可以支持从psql的客户端,Master服务器,Instance 服务器等位置,将文 式。COPY和CREATE EXTERNAL TABLE(gpload实际上只是外部表的包装,不再单 独介绍,有需要的话,可以查阅相关资料)命令都可以指定数据的格式,数据可以是带 分隔符的TEXT文本,逗号分隔的CSV格式等。只有正确的定义了数据的格式,在操作 这些数据时才能正确的处理。 行分隔符 GP数据库可以识别的行分隔符包括:换行(LF | 0x0A)、回车(CR |0 码力 | 416 页 | 6.08 MB | 1 年前3
完全兼容欧拉开源操作系统的 HTAP 数据平台 GreenplumCPU 2 个数量 级的性能加速,尤其对于可预测的分析用例和图像识别,这些功能将展现奇效。支持在 Apache Solr 数据库内实施 GPText 完成索引和搜索功能,其中包含用于国际文本和社交媒体文本的自定义分词器和一个通用查询处理器(可接 受来自支持的 Solr 查询处理器的采用混合语法的查询)。PostGIS 程序包是 PostgreSQL 的空间数据库扩展,可让地 理信息系统 (GIS)0 码力 | 17 页 | 2.04 MB | 1 年前3
Greenplum 精粹文集接下来,评估一下外部表加载数据的性能: 1) 一个 gpfdist 服务只使用一个 CPU 核的资源。 因此,通常,一个 gpfdist 服务每秒可以处理约 400MB~450MB 的 TXT 文本,如果是 CSV 格式,每秒可以处理约 300MB~350MB。 2) 一个 PrimaryInstance 在处理一个外部表加载时,只使用一个 CPU 核的资源。 通常,一个 Primary 加密Greenplum中数据的指导。 虽然本方法在许多情况下都适 用,但是使用 pgcrypto 加密静 态数据会比较麻烦,具体取决 于组织和用户的需求。例如,你必须首先使用 GPG 创建密匙才能利用 pgcrypto 扩展包加密纯文本 / 字节,然后利用密匙对每个 INSERT 执 行如下的 SQL 命令。 Big Date2.indd 50 16-11-22 下午3:38 Greenplum 精粹文集 51 INSERTINTO0 码力 | 64 页 | 2.73 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 6: 混合负载的理想数据平台• Gist • GIN • BRIN (开发中) <10ms的访问 时间,即使是 上亿条记录 <~ 100 不同值 B-Tree Bitmap 地理空间 区域 Gist 文本倒排 索引 GIN 28 Pivotal Confidential–Internal Use Only Segment 1A Segment 1B Segment 1C Segment 1D0 码力 | 52 页 | 4.48 MB | 1 年前3
共 10 条
- 1













