使用 TiDB 进行实时数据分析-马晓宇## 使用 TiDB 进行实时数据分析 ## 马晓宇@PingCAP ## 极客邦科技 会议推荐2019  ## QCon ## 全球软件开发大会 大会:5月6–8日 培训:5月9–10日 ## QCon 北京 广州 ## 实际用户案例 ## 案例 - 易果生鲜实时数仓 • 数据中台实时分析 - 全局实时汇聚,展现一个统一的逻辑视图 ☐ Binlog 实时同步,存储系统需要能高频更新 TiDB 的协议兼容让同步 MySQL 数据库尤其方便 ☐ 多维度复杂查询,需要索引和完整的 SQL 支持 ☐ 使用 Spark 进行复杂数据分析 ☐ 全局实时汇聚,展现一个统一的逻辑视图 ## 实时数仓 - 易果生鲜 ![Imag0 码力 | 36 页 | 9.32 MB | 2 年前3
PieCloudDB云原生数仓虚拟化之路0 码力 | 44 页 | 1.64 MB | 1 年前3
[PingCAP Meetup SH 5.26]TiDB在易果集团的应用6大洲39个国家地区147个产地 ## ExFresh 交鲜达 冷链仓全国布局最广,15地24仓 产能全国最大,180万件/天 冷链物流全国规模最大,覆盖全国近400个城市 ## 易果 行业最大的生鲜电商运营平台 订单量近20万单/天 GMV100亿/年 ## 实时数仓历史 ## 接手之前的实时数仓: SQLServer + 存储过程 Dblink不好管理,接入数据有限 |---|---|---|---|---| |commodityCode|String|@word(32)||商品编码| ## 未来规划 ※ 数据中台接入更多业务 TP向业务使用TiDB 统一的流式/近实时数据抽取,加工调度平台 更加明确TiDB和TiSpark引擎的选择 ## 凡是过往,皆为序章 Thank you! 易果0 码力 | 12 页 | 585.78 KB | 1 年前3
云原生图数据库解谜、容器化实践与 Serverless 应用实操## 云原生图数据库解谜、容器化实践与 Serverless 应用实操 Graph DB on K8s Demystified and its Serverless applicaiton in actions. 古思为 DEVELOPER ADVOCATE @ 💱 vesoft 方阗 MAINTAINER OF OPEN FUNCTION KCD China 2021 Kubernetes0 码力 | 47 页 | 29.72 MB | 1 年前3
云原生虚拟数仓PieCloudDB Database产品白皮书the lazy dog. ## 目录 行业背景 3 数据量的爆发式增长 3 数据库的未来在云上 3 传统数仓的痛点 4 云时代的数据处理要求 5 PieCloudDB,云原生虚拟数仓 6 PieCloudDB 产品概述 7 PieCloudDB 产品架构 7 PieCloudDB 产品特性 均水平。云原生数据库成为大势所趋,各个企业也都在向这一趋势靠拢。2020年数据显示,云数据库已占据整体数据库市场份额的40%,2022年云数据库营收数据将占据数据库整体市场的半数以上。 ## 传统数仓的痛点 很多受欢迎的数据库仓库均为分布式数据库,而典型的传统分布式数据库系统大多是 MPP(大规模并行计算)架构。MPP 架构的数据库以 PC 服务器为单位,通过如下图所示的组群方式来扩展存储和计算。假设一个宽表有 上千个集群,但这些集群的元数据往往都是一样的。这种情况下,很多元数据会在不同集群间存在不一致的版本信息。此外,如果企业需要做跨集群的访问,往往非常困难,会造成数据孤岛的存在。 对于传统 MPP 数仓,企业往往会需要配备运维人力,且对运维、开发人员要求高,需要相关人员掌握复杂的技术栈,技术的更新迭代迅速,相关人员需保持积极的知识更新意识。相关人才市场较小,人才匮乏。高昂的学习成本造成用户使用过程中0 码力 | 17 页 | 2.02 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践## Apache Doris在美团外卖数仓中的应用实践 ## 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。 本文侧重于以Doris引擎为“发动机”的数仓生产架构的改进与思考。在开源的大环境下,各种数据引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢迎大家多给我们提出建议。 ## 数仓交互层引擎的应用现状 目前, c查询。 • 同时支持离线批量导入和实时数据导入。 • 同时支持明细和聚合查询。 • 兼容MySQL协议和标准SQL。 - 支持Rollup Table和Rollup Table的智能查询路由。 - 支持较好的多表Join策略和灵活的表达式查询。 • 支持Schema在线变更。 • 支持Range和Hash二级分区。 ## Doris在外卖数仓中的应用效率 上图是我们在一个分析项目0 码力 | 8 页 | 429.42 KB | 2 年前3
数仓ClickHouse多维分析应用实践-朱元## clickhouse数仓应用实践 演讲人:朱元 日期:2019-10-20   Oracle数据平台 - 通过kettle每天定时导出文件至本地 clickhouse数据库 ## 数仓建设  ## 数仓建设-维度表 ### 一 般维度表数据量不大. 目前采用的是引擎Log+字典表(dictionary) ! [Image](/uploads/documents/a/5/4/5/a5458db7fb86ab4e1f5c1167e010676e/p9_2.jpg) ## 数仓建设-主题事实清单表 主题事实清单表采用引擎MergeTree. 同步策略: 每日从 oracle 数据平台增量同步到 ck 数仓. create table dw_hr.fct_rpt_dc_shop_vender_day ( stat_year Int160 码力 | 14 页 | 3.03 MB | 2 年前3
云原生虚拟数仓 PieCloudDB ETL 方案设计与实现数智赋能 共筑未来  ## 云原生虚拟数仓PieCloudDB ## ETL方案设计与实现 邱培峰 拓数派 技术专家 ## 自我介绍 ## 邱培峰 拓数派技术专家 ETL解决方案及内核组件研发 大连理工大学软件工程本科 pgsql@qiupf0 码力 | 29 页 | 5.24 MB | 1 年前3
云原生虚拟数仓 PieCloudDB 的架构和关键模块实现! ⑨@ $ ^{-0} $ » $ ^{1/4} $ °α·0 $ ^{1/2} $ $ ^{3/4} $ ! À(5Æ•M4³⁄₄±;T.\•®@~ÃÄ ## 用户期望一个兼顾关系型数仓和公有云优势的产品  ## )±—ÉÊ "\#$%&' ! !"\#$%& '()*(+, -. ! ()*+, -.*)/+01 ! /0&123 ! 456&789: ## 虚拟数仓 ## 系统表——mStore ! ®Zt °± 23_e" /'luvμ b cde%f &&gd%hi ! ¿$g%ÀÁÃÚ &e± ## 数据表0 码力 | 43 页 | 1.14 MB | 1 年前3
PieCloudDB:云原生分布式虚拟数仓的诞生之旅## OpenPie $ ^{®} $ Data Computing for New Discoveries 数据计算,只为新发现 ## PieCloudDB:云原生分布式 虚拟数仓的过去、现在和未来 郭罡 拓数派 ## 关于我 ## • 18年+基础软件一线经验 • 9年:Unix/Linux应用和内核开发、虚拟化(芯片KVM内核支持)、高速网络开发(NIC驱动、IB、DPDK、OVS (HAWQ、PG、Greenplum、PieCloudDb). • 现在负责拓数派的整个研发管理. • 毕业于中国科学技术大学(专业语音识别). ## PieCloudDB简介 · 一款云原生分布式虚拟数仓 • Data: Shared Storage (S3/HDFS/NAS) • Meta: Shared on NoSQL (当前是FoundationDB) • Postgres生态 • 软件交付版本 但是我们还是可通过foreign data wrapper访问Parquet, etc. ## 构建之路 - 数据访问加速 • S3访问考虑(提升性能 & 降低成本) • 使用缓存,长远来说分布式缓存. • 虚拟数仓:一致性Hash存储缓存文件. • Data Skipping (比如Block Skipping,预聚集,etc). • S3访问通用优化:并行化、预读、异步、Mpp引擎"steal"0 码力 | 24 页 | 2.01 MB | 1 年前3
共 453 条
- 1
- 2
- 3
- 4
- 5
- 6
- 46
相关搜索词
TiDBTiSpark行存格式列存格式分布式数据库云原生数据库虚拟化分布式架构弹性扩展高性能计算数据中台实时数仓生鲜电商云原生图数据库Serverless 应用Kubernetes容器化部署Nebula Graph云原生虚拟数仓弹性扩缩容存算分离高可用性eMPP分布式技术Apache DorisROLAP模式MOLAP模式Bitmap聚合数仓应用ClickHouse数据同步维度表MergeTree引擎Davinci报表系统任务调度总控Foreign TableFormatterINSERT/MERGE模式云原生环境架构关键模块性能优化用户需求云原生分布式虚拟数仓分布式系统元数据存储弹性计算存储分离













