使用 TiDB 进行实时数据分析-马晓宇0 码力 | 36 页 | 9.32 MB | 1 年前3
TiDB 开源分布式关系型数据库VIPKID -TiDB 在公有云亿级数据场景下的应用实践 47 5.7 游戏 网易互娱 -基于 TiDB 措建跨源异构计算架构 “049 5.8 视频 Bigo - 选择 TiFlash 打造高效的实时分析平台 "0 51 第六章 技术支持与培训认证 6.1技术支持 . 54 6.2培训与认证 54 联系我们 . 56 一 是一款同时支持在线事务处理与在线分析处理 (Hybrid Transactional and Analytical Processing, HTAP) 的开源分布式关系型数据库产品, 具备水平扩容或者编容、金融级高可用、实时 HTAP,云原生的分 布式数据库、兼容 MySQL 5.7协议和 MySQL 生态等重要特性, 向用户提供一站式 OLTP.OLAPHTAP 解决 方案,适用于对高可用、一致性要求高、数据规模较大等应用场景。 提交,确保数据强一致性有少数副本发生故障时不影响数据的可用性。可按需配置副本地理位 置、副本数量等策略满足不同容灾级别的要求。 钢 实时HTAP 提供行存储引擎 TiKV、列存储引擎 Tiflash 两款存储引擎,Tiflash 通过 Multi-Raft Learner 协议 实时从TiKV 复制数据,确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。TiKV、 Tiflash 可按需部署在不同的机器,解决0 码力 | 58 页 | 9.51 MB | 1 年前3
6. ClickHouse在众安的实践Clickhouse在众安的应用实践 百亿保险数据实时分析探索 众安保险 数据智能中心 蒙强 2019年10月27日 众安保险 • 成立于2013年,是中国第一家互联网保险公司。 • 互联网保险特点: 1. 场景化 2. 高频化 3. 碎片化 • 今年上半年众安上半年服务用户3.5亿,销售保单33.3亿张。 CHAPTER 报表系统的现状 01 数据分析的最直观表现形式:报表 报表≠数据驱动 每天被访问超过10次的报表寥寥无几 每天被访问超过10次的报表寥寥无几 传统报表访问往往是静态的、高聚合、低频、表单式的 集智平台可视化交互分析 数据加工的链路与数据价值发现 竞争优势 分析成熟度 洞察与应对 预测与行动 源数据 数据清洗 标准报表 OLAP系统 商务智能(BI) 机器学习建模 人工智能优化 发生了什么? 为什么发生? 什么会发生? 什么是最佳决策? 分析性数据仓库 数据洞察与可视化 数据治理 CHAPTER 众安集智平台与clickhouse 02 集智平台 X-Brain AI 开放平台 计算框架 Hadoop, JStorm, Spark Streaming, Flink 离线/实时任务监控 数据、模型存储 Hive, HBase, Clickhouse, Kylin 数据接入 消 息 中 间 件 模型、 算法 模版 机器学习平台 Antron 机器人平台 X-Insight0 码力 | 28 页 | 4.00 MB | 1 年前3
谈谈MYSQL那点事对读一致性的权衡,如果是对读写实时性要求非常高的话, 就将读写都放在 M1 上面, M2 只是作为 standby 。 比如,订单处理流程,那么对读需要强一致性,实时写实 时读,类似种涉及交易的或者动态实时报表统计的都要采 用这种架构模式 弱一致性 如果是弱一致性的话,可以通过在 M2 上面分担一些读压力 和流量,比如一些报表的读取以及静态配置数据的读取模块 都可以放到 M2 上面。比如月统计报表,比如首页推荐商品 上面。比如月统计报表,比如首页推荐商品 业务实时性要求不是很高,完全可以采用这种弱一致性的设 计架构模式。 中间一致性 如果既不是很强的一致性又不是很弱的一致性,那 么我们就采取中间的策略,就是在同机房再部署一个 S1(R) ,作为备库,提供读取服务,减少 M1(WR) 的 压力,而另外一个 idc 机房的 M2 只做 standby 容灾方 式的用途。 当然这里会用到 3 台数据库服务器,也许会增加采 语句中字段,应建立索引。 唯一性约束,系统将默认为改字段建立索引。 唯一性约束,系统将默认为改字段建立索引。 对于只是做查询用的数据库索引越多越好,但对于在线实时 对于只是做查询用的数据库索引越多越好,但对于在线实时 系统建议控制在 系统建议控制在 55 个以内。 个以内。 索引不仅能提高查询 索引不仅能提高查询 SQL SQL 性能,同时也可以提高带 性能,同时也可以提高带0 码力 | 38 页 | 2.04 MB | 1 年前3
Doris的数据导入机制以及原子性保证性能卓越,PB级别数据毫秒/秒级响应 • 适用于高并发、低延时下的多维分析、实时报表等场景 • 由百度自研,2017年开源,2018年贡献给Apache社区后更名为 Apache Doris 系统定位 • 百度内部统称其为“百度数据仓库Palo”,同时百度云上提供Palo的企业级托管版本 发展历程 01 02 03 • 1.0版本正式上线 • 应用于百度凤巢统计报表的 需求场景,上线后数据更新 频率从天级提升至分钟级 频率从天级提升至分钟级 2008 • 进行了通用化改造,开始承 接公司内部其他报表系统 • 助力百度统计成为国内最大 的中文网站分析工具 2009 • 随百度业务飞速发展,对 Doris的性能、可用性、拓 展性进行了全面升级 • 承担百度所有统计报表业务 2012 01 Doris简介 04 05 06 • 全新的数据模型,查询存储 效率大幅提升 • MPP框架,支持分布式计算 Doris 简介 导入的问题 02 典型应用场景——OLAP分析 数据源 数据应用 数据存储 对象存储BOS OLTP WEB端日志 移动端日志 本地文件 数据分析 业务应用 实时大屏 多维报表 自助查询 用户画像 Doris 02 导入的问题 Vn Vn Vn Vn V1-Vn-1 02 导入的问题 • 部分数据丢失,产生脏数据 • 数据重复 数据完整性问题0 码力 | 33 页 | 21.95 MB | 1 年前3
2. 腾讯 clickhouse实践 _2019丁晓坤&熊峰数 据 TDBANK 准实时传输管道 Kafka-Pipeline 实时管道 TDW 数据仓库 采 集 存 储 大数据应用 PaaS平台 数据挖掘与内容推荐 PaaS 精准 推荐 知识 图谱 精细化 运营 … iData 大数据分析PaaS 实时 分析 多维 分析 画像 分析 … DataMore 大数据应用PaaS 实时 决策 任务 系统 … 排 大数据基础PaaS平台 n 标准化、海量数据接入能力 n 实时化、低延时对接数据应用 n 异构化兼容能力 大数据应用PaaS服务 游戏数据驱动场景 n 实时干预游戏用户 n 精细化、精准化驱动场景服务 n 提升原有服务的增强效果 n iData大数据分析PaaS 在线实时能力 n iData大数据分析:多维分析,画像分析能力 n DataMore大数据实时决策能力 一切以用户价值为依归 17 & Database 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse OLTP Big Data Analysis 数据报表 多 维 聚 合 iData大数据分析引擎 TGMars TGSpark & Storage 大数据仓库 Hadoop Data Lake 计算引擎 MR & Spark Data Warehouse0 码力 | 26 页 | 3.58 MB | 1 年前3
阿里云 AnalyticDB for PostgreSQL
- 打造更简单易用的Cloud SQL Data Warehouserac1 rac2 rac3 rac n Oracle RAC 11G ODPS ETL建模 交互式分析 AnalyticDB for MySQL 实时数仓 ⚫ All In One数仓去O ⚫ 交互式分析 ⚫ 中小规模实时数仓 小烟枪在阿里的场景裂变 Greenplum发展史@Alibaba 产品云化-服务中小企业 IaaS、PaaS、SaaS皆云化-大势所趋 阿里云能够提供一站式的分析解决方案 任意维度随机查询 • 实时入库更新 • 高吞吐数据写入及更新 (INSERT/UPDATE/DELETE) • 行存储及多种索引(Btree, Bitmap 等),点查询毫秒级返回 • 支持分布式事务,标准数据库隔离级别 基于AnalyticDB for PostgreSQL 构筑云上数据仓库 1:实时数仓场景 通过 DTS/Kettle/rds_dbsync 实时同步交易库数据到 ADBPG 数据按冷热分析,支持在线查询OSS分布式云存 储上的格式化数据 AnalyticDB for PostgreSQL 智能分析服务 DataV QuickBI 云上大数据计算平台 大数据平台 数据分析应用 制式化报表 个性化报表 仪表盘 自助查询 宏观分析 模型分析 MaxCompute 生产系统数据库 关系型数据 库A RDS …… 关系型数据 库B RDS 关系型数据 库C RDS0 码力 | 22 页 | 2.98 MB | 1 年前3
SelectDB案例 从 ClickHouse 到 Apache Doris内容数据资产(以指 标和标签体系为载体),为应用层提供库存盘点、分群画像、指标分析、标签圈选等内容分 析服务。 数据架构演进 TDW 是腾讯最大的离线数据处理平台,公司内大多数业务的产品报表、运营分析、数据挖 掘等的存储和计算都是在 TDW 中进行,内容库数据平台的数据加工链路同样是在腾讯数据 仓库 TDW 上构建的。截止目前,内容库数据平台的数据架构已经从 1.0 演进到了 4.0 , 询分析。 导入方式多样,支持从 HDFS/S3 等远端存储批量导入,也支持读取 MySQL Binlog 以及订阅消息队列 Kafka 中的数据,还可以通过 Flink Connector 实时/批次同步数 据源(MySQL,Oracle,PostgreSQL 等)到 Doris。**** 社区目前 Apache Doris 社区活跃、技术交流更多,SelectDB 针对社区有专职的技 术支持团队,在使用过程中遇到问题均能快速得到响应解决。 同时我们也利用 Doris 的特性,解决了架构 1.0 中较为突出的问题。 数仓层:Apache Doris 的 Aggregate 数据模型可支持部分列实时更新,因此我们去 掉了 DWM 集市层的构建,直接增量到 Doris / ES 中构建宽表,解决了架构 1.0 中 上游数据更新延迟导致整个宽表延迟的问题,进而提升了数据的时效性。数据(指 标、标签等)通过0 码力 | 12 页 | 1.55 MB | 1 年前3
TiDB v5.2 中文手册进行数据导入· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 145 5.6 将 TiDB 集群的增量数据实时同步到另一集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 145 5.6.1 实现原理 务处理与在线分析 处理 (Hybrid Transactional and Analytical Processing, HTAP) 的融合型分布式数据库产品,具备水平扩容或者缩容、金 融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。目标是为用 户提供一站式 OLTP (Online Transactional Processing)、OLAP 保数据强一致性且少数副本发生故障时不影响数据的可用性。可按需配置副本地理位置、副本数量等 策略满足不同容灾级别的要求。 • 实时 HTAP 提供行存储引擎TiKV、列存储引擎TiFlash 两款存储引擎,TiFlash 通过 Multi-Raft Learner 协议实时从 TiKV 复制 数据,确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。TiKV、TiFlash 可按需部署在不同的0 码力 | 2259 页 | 48.16 MB | 1 年前3
TiDB v5.3 中文手册进行数据导入· · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 153 5.6 将 TiDB 集群的增量数据实时同步到另一集群 · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · · 153 5.6.1 实现原理 务处理与在线分析 处理 (Hybrid Transactional and Analytical Processing, HTAP) 的融合型分布式数据库产品,具备水平扩容或者缩容、金 融级高可用、实时 HTAP、云原生的分布式数据库、兼容 MySQL 5.7 协议和 MySQL 生态等重要特性。目标是为用 户提供一站式 OLTP (Online Transactional Processing)、OLAP 保数据强一致性且少数副本发生故障时不影响数据的可用性。可按需配置副本地理位置、副本数量等 策略满足不同容灾级别的要求。 • 实时 HTAP 提供行存储引擎TiKV、列存储引擎TiFlash 两款存储引擎,TiFlash 通过 Multi-Raft Learner 协议实时从 TiKV 复制 数据,确保行存储引擎 TiKV 和列存储引擎 TiFlash 之间的数据强一致。TiKV、TiFlash 可按需部署在不同的0 码力 | 2374 页 | 49.52 MB | 1 年前3
共 79 条
- 1
- 2
- 3
- 4
- 5
- 6
- 8













