Greenplum 新一代数据管理和数据分析解决方案
1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum 随着数据量的不断增长,应用在现有平台上的运行效率极度恶化。 – 实际运行采样,9月份月度数据处理时,该应用耗时42小时;经过两个月 的数据累加,到11月份月度数据处理时,该应用耗时达到65小时。 • 测试运行平台 – 服务器平台:SUN X4500两台,每台含2路dual-core CPU 共4core, 16GB;SUN X4200一台,2路dual-core CPU 共4core,8GB – Beta – 应用软件:SQL语句 • 数据导入测试 – A - 67858566 rows – B - 80088742 rows – C - 372844366 rows – D - 75042462 rows – E - 2521897 rows 结论:超过6亿条历史数据导入,用时少于1.5小时,性能非常卓越。 • 全表扫描测试 – DWA测试环境:针对表C(372844366 rows)进行全表扫描,历时少于10 码力 | 45 页 | 2.07 MB | 1 年前3SelectDB案例 从 ClickHouse 到 Apache Doris
1.0 演进到 了 4.0 ,经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层 的初步引入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等 问题,收益显著。本文将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思 考,希望所有读者从文章中有所启发。 作者:腾讯音乐内容库数据平台 张俊、代凯 腾讯音乐娱乐集 1.0 演进到了 4.0 , 经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引 入到深度应用,有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题,收 益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。 数据架构 1.0 2 如图所示为数据架构 1.0 架构图,分为数仓层、加速层、应用层三部分,数据架构 存在的问题: DataSet 灵活度较高,数据分析师可对指标和标签自由组合和定义,但是不同的分 析师对同一数据的定义不尽相同、定义口径不一致,导致指标和标签缺乏统一管理, 4 这使得数据管理和使用的难度都变高。 Dataset 与物理位置绑定,应用层无法进行透明优化,如果 Doris 引擎出现负载较 高的情况,无法通过降低用户查询避免集群负载过高报错的问题。 数据架构 30 码力 | 12 页 | 1.55 MB | 1 年前3πDataCS赋能工业软件创新与实践
⼤模型训练… 自研简墨存储 … 统⼀数据格式 | ⼀份数据多引擎计算|兼容主流云存储格式和协议 智能新硬件技术 πFPGA 数据存储|虚拟数仓 | 特定领域(如神经⽹络) 私有云 Mundo元数据管理系统 统⼀Catalog @2024 OpenPie. All rights reserved. OpenPie Confidential πDataCS 优势1 :全面升级Hadoop⼤数据 提升转换 CTE和递归 CTE的优化 其他相关优化 聚集下推 通过把聚集操作下推到连接操作之前去执⾏,极⼤的减少连接操作需要处理的数据量,使得查询性能显 著提升。在很多场景下经过严格的测试,聚集下推会取得百倍或千倍的性能提升。 达奇 PieCloudDB Optimizer Ø 基于eMPP架构的云原⽣分布式 优化器; Ø 为海量数据集上的复杂OLAP查 询提供最优的查询计划。 但是,经过处理⽆法识别特定个⼈且不能复原的除外。 • 《中国银⾏业“⼗⼆五”信息科技发展规则监管指导意见》中提出, 完善敏感信息存储与传输等⾼风险环节的控制措施,对数据、⽂ 档的访问应建立严格的审批机制,对用于测试的⽣产数据要进⾏ 脱敏处理,严格防⽌敏感信息泄露。 存 储 层 Table Log … 密⽂ 存储 ⼀级密钥 ⼆级密钥 三级密钥 数据 访问 PieDataCS 加密 模块 存储0 码力 | 36 页 | 4.25 MB | 1 年前3完全兼容欧拉开源操作系统的 HTAP 数据平台 Greenplum
白皮书 4 白皮书 | 4 关于本白皮书 近日,Greenplum 社区和欧拉开源社区深化合作,在欧拉开源操作系统(openEuler, 简称“欧拉”)编译测试了高级分 析数据平台 Greenplum,用实践证明了 Greenplum 与支持多样性计算的欧拉开源操作系统完全兼容,是 Greenplum 与中国本地 IT 厂商的深入合作的典型模板,大大丰 作为一款深受技术爱好者喜爱的、中立的纯开源软件,践行 “Run Everywhere”原则,用全新的HTAP核心设计满足实时处理业务需求。在此也为所有为Greenplum on openEuler 成功测试运行所做努力贡献的人员表示感谢! 摘要 Greenplum 不受限于基础架构,这意味着它是一种可完全移植的分析数据库软件解决方案,可部署在不同操作系统、 不同芯片的环境,适合本地部署 Hybrid Database for Transactional and Analytical Workloads》1成功入选 SIGMOD 的收录论文,ACM SIGMOD 数据管理国际会议是由美国计算机协会 (ACM) 数据管理专业委员会(SIGMOD)发起、在数据库领域具有最高学术地位的国际性学术会议,SIGMOD 和另外 两大数据库会议 VLDB、ICDE 构成了数据库领域的三个顶级会议,其论文录取率是很低的,平均录取率大约仅为0 码力 | 17 页 | 2.04 MB | 1 年前3阿里云云数据库 Redis 版 快速入门
连接实例 DMS 是一款访问管理云端数据的 Web 服务,支持 Redis、 MySQL、SQL Server、PostgreSQL 和 MongoDB 等数据源。DMS 提供了数据管理、对象管理、数据流转和实例管理四部分功能。您可以通过以下 两种方式登录 DMS。 通过 Redis 管理控制台,选择要登录的实例,单击右上角的登录数据库打开 DMS。通过该种方式打 - - - - 经典网络及 VPC 网络的实例都支持 DMS。由于 VPC 网络需要申请一个特殊通道,对于第一次 登录的实例需要一定的缓冲时间。 更多的 DMS 相关信息请参见数据管理。 由于云数据库 Redis 提供的数据库服务与原生的数据库服务完全兼容,连接数据库的方式也基本类似。任何兼 容 Redis 协议的客户端都可以访问云数据库 Redis 版服务,您可以根据自身应用特点选用任何 "INCR counter"); printf("INCR counter: %lld\n", reply->integer); 云数据库 Redis 版 快速入门 18 编译上述代码。 测试运行。 至此完成通过 C/C++ 客户端连接云数据库 Redis。 .net 客户端 操作步骤如下所示: 下载并使用.net 客户端。 在.net 客户端中新建0 码力 | 29 页 | 1.07 MB | 1 年前3Greenplum 精粹文集
join(据说未来会支持 hash join),而多个大表关联分析时 hash join 是必备的利器,缺少这些关键功能非常致命,将难于在 OLAP 领域充当大任。我们最近对基于 MYSQL 的某内存分布式数据库做 对比测试时,发现其优点是 OLTP 非常快,TPS 非常高(轻松搞定 几十万),但一到复杂多表关联性能就立马下降,即使其具有内存 计算的功能也无能为力,就其因估计还是受到 mysql 在这方面限制。 3) 头文件编译后,将动态 so 库文件部署到所有节点就可进行测 试使用了。有些模块还是非常好用的,例如:oraface,基本上集成了 Oracle 常用的函数到 Greenplum 中,曾经在一次 PoC 测试中,用户 提供的 22 条 Oracle SQL 语句,不做任何改动就能运行在 Greenplum 上。 最 后, 需 要 强 调 的 是:Greenplum 绝 不 仅 仅 记忆较深的一次 PoC 公开测试中,有厂商要求在测试中关闭 CPU 超 线程,估计和这个原因有关(因为没有办法利用到多个 CPU core 的 计算能力,还不如关掉超线程以提高单 core 的能力),但即使是这样, 在那个测试中,测试性能也大幅低于 Greenplum(那个测试中,各厂 商基于客户提供的完全相同的硬件环境,Greenplum 是唯一一家完成 所有测试的,特别在混合负载测试中,Greenplum0 码力 | 64 页 | 2.73 MB | 1 年前3阿里云云数据库 Redis 版 产品简介
60000 60万 云数据库 Redis 版 产品简介 24 QPS 能力 说明:非集群版实例的 QPS 能力参考范围为8-10万, 集群实例的 QPS 参考值为节点数目乘以8-10万。 测试场景说明 网络拓扑图 云主机规格 操作步骤 在3台 ECS 上下载 redis-2.8.19 源码包。 规格(GB) 连接数上限(个 ) 内网带宽上限 $ cd redis-2.8.19 $ make $ make install 云数据库 Redis 版 产品简介 25 在3台 ECS 上同时执行以下命令。 汇总3台 ECS 上的测试数据,QPS 为3台 ECS 总和。 功能特性 架构灵活 单节点架构 单节点架构适用于纯缓存场景,支持单节点集群弹性变配,满足高 QPS 场景,提供超高性价比。 ,随时随地了解实例动态。 可视化管理平台 管理控制平台对实例克隆、备份、数据恢复等高频高危操作可便捷的进行一键式操作。 可视化 DMS 平台 专业的 DMS 数据管理平台,提供可视化的数据管理,全面提升研发、运维效率。 数据库内核版本管理 主动升级,快速修复缺陷,免去日常版本管理苦恼;优化 Redis 参数配置,最大化利用系统资源。 产品优势0 码力 | 33 页 | 1.88 MB | 1 年前3ClickHouse在B站海量数据场景的落地实践
定制开发的 ClickHouse-JDBC 与ClickHouse兼容的 HTTP 接口 请求管理/流量控制 查询缓存 查询分发器 查询处理器 ClickHouse 监控管理平台 元数据管理 库表管理 权限管理 埋点分析 报表平台 HDFS/Hive Kafka/Databus 离线接入 (Rider/Spark/WaterDrop) 实时接入 (BSQL/Saber/Flink ClickHouse as Service v Berserker数据源管理: Ø 建表 Ø 修改表元数据 Ø 表元数据管理 v Yuuni: Ø 屏蔽集群信息 Ø 原⽣JDBC,HTTP接⼜ Ø 读写分离 Ø 动态查询缓存 Ø 流量控制 v 监控管理平台: Ø 统计⼤盘 Ø 回归测试 Ø 接⼊评估 Ø 数据迁移 Ø 数据重平衡 v 交互式分析查询:Superset提供即时查询能⼒0 码力 | 26 页 | 2.15 MB | 1 年前36. ClickHouse在众安的实践
机器人平台 X-Insight 数据洞察平台 X-Zatlas 数据可视化平台 模板 X-BI 数据探索平台 图像分类 平台 OCR工具 链 X-Farm 异构数据治理、协同平台 元数据管理/数据集市 数据权限管理 | 大数据、流数据建模 | 数据/模型生命周期管理 资源调度 业务系统 开 发 工 具 基 础 设 施 模型 反馈 智能应用 开放与敏捷 • 大数据、流数据统一建模管理 erver占用核约2-5,导入速率=280mb/s 22 ClickHouse 百亿数据性能测试与优化 • 数据查询 4.48 5.56 4.71 8.64 18.6 250.57 场景 1 场景 2 场景 3 场景 4 场景 5 时间 s 时间(冷数据)s 一些典型查询的性能 测试1:手机号非空&健康险365天保费>100的用户车险总保费分布情况 Elapsed Processed 2.08GB/s 1.77GiB 测试2:健康险365天保费>100的用户前一年保费分布情况 Elapsed Processed rows Throughput Peak memory 5.567s 215.26 million, 16.86GB 38.67millon/s, 3.03GB/s 2.46GiB 26 ClickHouse 百亿数据性能测试与优化 • 场景5涉及到全表百亿行0 码力 | 28 页 | 4.00 MB | 1 年前3PieCloudDB Database 产品白皮书
数据服务和存储服务,降 低了元数据访问的网络延迟,加快了用户数据的访问速度。 pieCloudDB 对数据查询的执行流程在查询执行器中进行了全链路的优化,完整支持 TPC-H 和 TPC-D5 等测试,实现 了包括聚集下准、Block Skipping 等功能模块,大大缩短执行时间,高效的数据查询提高了数据分析的实时性。 1. 票集下推 在执行聚集函数的过程中,查询优化器会把聚集操作下推到连接操作之前去执行,可以极大地减少连 企业业务高弹性和敏汪性的需求。 pieCloudDB 打破了数据湖与数据仓库割裂的体系,架构上实现了将数据湖的灵活性、生态丰富与数据仓库的企业级 能力充分融合,帮助企业构建数据湖和数据仓库下合的数据管理平台。 PieCloudDB 内置的 foreign-data wrapper 《FDW) 模块,让用户可以访问 HDFS、MySQL 、Oracle等外部数据。PieCloudDB 支持JS5ON,XML,Parquet以及 的新可能。其云原生架构运用全新 eMPP 分布式 技术,在传统 MPP 数据仓库功能丰富和成熟稳定等优势的基础上,加入了众多的云原生特性。 * 多集群数据共享 PieCloudDB 通过统一元数据管理技术安全轻松地实现不同集群间的数据共享,使数据库中任何一个集群可以对数据 库内任何一份数据进行访问,避免了数据复制与移动的复杂性。此外,PieCloudDB 的云原生架构支持用户基于同一 份数据建0 码力 | 17 页 | 2.68 MB | 1 年前3
共 90 条
- 1
- 2
- 3
- 4
- 5
- 6
- 9