使用 TiDB 进行实时数据分析-马晓宇0 码力 | 36 页 | 9.32 MB | 1 年前3
数仓ClickHouse多维分析应用实践-朱元主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle数据平台增量同步到ck数仓. 数 仓 建 设 – 对外数据 目前对外开放是主题事实清单表+维度表 封装成一个视图,类 似如下 数 据 展 示 + 多 维 分析 采用开源报表系统davinci 地址: https://github.com/edp963/davinci 03 1. Memory limit (for query) exceeded 解决:通过在users0 码力 | 14 页 | 3.03 MB | 1 年前3
Greenplum数据库架构分析及5.x新功能分享Pivotal Confidential–Inter nal Use Only 1 © Copyright 2013 Pivotal. All rights reserved. Greenplum 数据库架构分析及5.x 新功能分享 杨瑜 Pivotal中国研发中心 2 Pivotal Confidential–Inter nal Use Only 日程 Greenplum 数据库(GPDB)简介 标准SQL支持,SQL 2003 OLAP扩展 支持 MapReduce 扩展编程语言 (Python,R, Java, Perl, C/C++) 第三方工具 BI 工具, ETL 工具 文本分析,数据挖掘等 管理工具 GP Command Center GP Workload Manager 7 Pivotal Confidential–Inter nal Use Only MPP(大规模并行处理)无共享体系架构 16 Pivotal Confidential–Inter nal Use Only 解析器 主节点Segment 系统表 优化器 分布式事务 调度器 执行器 解析器执行词法分 析、语法分析并生 成 解析树 客户端 主节点接受客户连接, 处理请求,执行认证 解析器 主节点 17 Pivotal Confidential–Inter nal Use Only 优化器 本地存储0 码力 | 44 页 | 8.35 MB | 1 年前3
Greenplum 新一代数据管理和数据分析解决方案1 新一代数据管理和数据分析 解决方案 关于Greenplum公司 • Greenplum是一家数据库软件公司,在数据处理和 BI/DW领域,提供容量 最大、速度最快、性价比最好的数据库引擎产品和服务。 • Greenplum总部位于圣马蒂奥,加利福尼亚州,美国,成立于2003年6月。 • Greenplum 中国于2008年12月正式成立. 2010/4/8 官方网站: www.greenplum Credibility Aging Proprietary Legacy Scalable, Open Software-Based Commodity HW • 用户人数 • 安全度 • 查询、报告、分析的数量 • 数据的高度多样性 • 大量定制数据 • 监管要求 商务智能/数据仓库发展趋势 一切都在增长! 数据仓库工作量:数据膨胀 面临的新难题是如何处理大规模数据 过去的10年 现在 金融服务 公民服务 国家安全 电子政务 法规实施和监管 人力资本管理 信息传播 合规性报告 资产组合分析 客户报表 电汇通知 分部记分卡 客户关系管理、收 购和盈利率 欺诈检测 欺诈分析 客户流失分析 响应时间 流量分析 产品关联/捆绑 零售 存储运营分析 客户忠诚度计划 协作规划和预估 预防亏损 优化供应链 当今的数据仓库方案 基于硬件 专有,昂贵0 码力 | 45 页 | 2.07 MB | 1 年前3
Greenplum 精粹文集Date2.indd 2 16-11-22 下午3:38 Greenplum 精粹文集 3 大家都知道 Greenplum 的数据库引擎层是基于著名的开源数据库 Postgresql的(下面会分析为什么采用Postgresql,而不是mysql等等), 但是 Postgresql 是单实例数据库,怎么能在多个 X86 服务器上运行多 个实例且实现并行计算呢?为了这,Interconnnect 且不管这是不是自我标榜, 就从 OLAP 分析型方面来考察,以下几点 Postgresql 确实胜出一筹。 Big Date2.indd 4 16-11-22 下午3:38 Greenplum 精粹文集 5 1) PG 有非常强大 SQL 支持能力和非常丰富的统计函数和统计语法 支持,除对 ANSI SQL 完全支持外,还支持比如分析函数(SQL2003 OLAP window Greenplum 作为 MPP 数据分析平台,这些功 能都是必不可少的。 2) Mysql 查询优化器对于子查询、复制查询如多表关联、外关联的支 持等较弱,特别是在关联时对于三大 join 技术:hash join、merge join、nestloop join 的支持方面,Mysql 只支持最后一种 nestloop join(据说未来会支持 hash join),而多个大表关联分析时 hash join0 码力 | 64 页 | 2.73 MB | 1 年前3
Apache ShardingSphere 中文文档 5.2.0. . . . . 17 海量数据高并发的 OLTP 场景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 海量数据实时分析 OLAP 场景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17 3.1.5 相关参考 . . . . . . . . . 提供基于数据全场景的迁移能力,可 应对业务数据量激增的场景。 联 邦 查询 联邦查询,是面对复杂数据环境下利用数据的有效手段之一。ShardingSphere 提供跨数据源 的复杂数据查询分析能力,简化并提升数据使用体验。 数 据 加密 数据加密,是保证数据安全的基本手段。ShardingSphere 提供一套完整的、透明化、安全的、 低改造成本的数据加密解决方案。 影 子 库 为应用提供标准化的连接方式。 1.2.2 增强:数据库计算增强引擎 在原生数据库基础能力之上,提供分布式及流量增强方面的能力。前者可突破底层数据库在计算与存储 上的瓶颈,后者通过对流量的变形、重定向、治理、鉴权及分析能力提供更为丰富的数据应用增强能力。 1.2. 设计哲学 4 Apache ShardingSphere document, v5.2.0 1.2.3 可插拔:构建数据库功能生态 Apache0 码力 | 449 页 | 5.85 MB | 1 年前3
Apache ShardingSphere 中文文档 5.1.1数据库; • 增量:获取数据库的访问流量,并提供流量重定向(数据分片、读写分离、影子库)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 Java 任意 任意 性能 损耗低 损耗略高 损耗低 无中心化 是 否 是 静态入口 无 有 无 1.1.4 混合架构 ShardingSphere‐JDBC 采用无中心化架构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用;ShardingSphere‐Proxy 提供静态入口以及异构语言的支持,独立于应用程序部署,适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。 ShardingSphere-JDBC ShardingSphere-Proxy 数据库 任意 MySQL/PostgreSQL 连接消耗数 高 低 异构语言 仅 Java 任意 性能 损耗低 损耗略高 无中心化 是 否 静态入口 无 有 ShardingSphere‐JDBC 的优势在于对 Java 应用的友好度。 3.1.2 ShardingSphere-Proxy ShardingSphere‐Proxy 是0 码力 | 409 页 | 4.47 MB | 1 年前3
Apache ShardingSphere 中文文档 5.1.0数据库; • 增量:获取数据库的访问流量,并提供流量重定向(数据分片、读写分离、影子库)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 Java 任意 任意 性能 损耗低 损耗略高 损耗低 无中心化 是 否 是 静态入口 无 有 无 1.1.4 混合架构 ShardingSphere‐JDBC 采用无中心化架构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用;ShardingSphere‐Proxy 提供静态入口以及异构语言的支持,独立于应用程序部署,适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。 ShardingSphere-JDBC ShardingSphere-Proxy 数据库 任意 MySQL/PostgreSQL 连接消耗数 高 低 异构语言 仅 Java 任意 性能 损耗低 损耗略高 无中心化 是 否 静态入口 无 有 ShardingSphere‐JDBC 的优势在于对 Java 应用的友好度。 3.1.2 ShardingSphere-Proxy ShardingSphere‐Proxy 是0 码力 | 406 页 | 4.40 MB | 1 年前3
HBase最佳实践及优化小规模的Scan操作(<1百万行)和Get操作 3. 运维难度大,大规模部署后单位运维成本低 4. 强一致性、开源、兼容私有部署/公有云部署 5. 通用的低延迟的基础存储引擎 • 尚未有系统同时很好地处理分析和OLTP任务 • 在HBase擅长的场景至今尚未有可替代品 Postgres Conference China 2016 中国用户大会 典型用户案例:Data Storage • 场景 – 满足现在清帐单业务的查询统计需求(23类) – 实时入库,清单文件无积压(清单文件最大2万条,最小1条记录。 实时生产,平均每秒2个20MB的清单文件,高峰期到每秒10个 20MB文件) – 对联机分析必须提供标准编程接口,支持SQL/JDBC/ODBC等 • 高可扩展和高可用 – 用户程序查询数据不需要知道底层细节,比如数据分布细节 – 可以水平扩展 – 允许多台机器故障的场景下,业务不中断 Conference China 2016 中国用户大会 案例2: 上网记录集中查询与分析 • 采用全国集中的一级架构方案进行建 设 • 主要包含数据采集子系统、数据入库 子系统、数据存储子系统、数据查询 与分析子系统 • 采用Hadoop/HBase作为上网记录存储 方案 • 采用MapReduce/Hive作用统计分析和 数据挖掘工具 【关键性能指标】 – 每日入库>5TB数据 – 上网记录入库时间:一般小于30分钟,0 码力 | 45 页 | 4.33 MB | 1 年前3
Apache ShardingSphere 中文文档 5.0.0数据库; • 增量:获取数据库的访问流量,并提供流量重定向(数据分片、读写分离、影子库)、流量变形(数 据加密、数据脱敏)、流量鉴权(安全、审计、权限)、流量治理(熔断、限流)以及流量分析(服 务质量分析、可观察性)等透明化增量功能; • 可插拔:项目采用微内核 + 三层可插拔模型,使内核、功能组件以及生态对接完全能够灵活的方式 进行插拔式扩展,开发者能够像使用积木一样定制属于自己的独特系统。 Java 任意 任意 性能 损耗低 损耗略高 损耗低 无中心化 是 否 是 静态入口 无 有 无 1.1.4 混合架构 ShardingSphere‐JDBC 采用无中心化架构,与应用程序共享资源,适用于 Java 开发的高性能的轻量级 OLTP 应用;ShardingSphere‐Proxy 提供静态入口以及异构语言的支持,独立于应用程序部署,适用于 OLAP 应用以及对分片数据库进行管理和运维的场景。 ShardingSphere-JDBC ShardingSphere-Proxy 数据库 任意 MySQL/PostgreSQL 连接消耗数 高 低 异构语言 仅 Java 任意 性能 损耗低 损耗略高 无中心化 是 否 静态入口 无 有 ShardingSphere‐JDBC 的优势在于对 Java 应用的友好度。 3.1.2 ShardingSphere-Proxy ShardingSphere‐Proxy 是0 码力 | 385 页 | 4.26 MB | 1 年前3
共 101 条
- 1
- 2
- 3
- 4
- 5
- 6
- 11













