沟通成本 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

SelectDB案例从 ClickHouse 到 Apache Doris

据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引入到深度应用，有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题，收益显著。本文将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考，希望所有读者从文章中有所启发。作者：腾讯音乐内容库数据平台张俊、代凯上构建的。截止目前，内容库数据平台的数据架构已经从 1.0 演进到了 4.0 ，经历了分析引擎从 ClickHouse 到 Apache Doris 的替换、经历了数据架构语义层的初步引入到深度应用，有效提高了数据时效性、降低了运维成本、解决了数据管理割裂等问题，收益显著。接下来将为大家分享腾讯音乐内容库数据平台的数据架构演进历程与实践思考。数据架构 1.0 2 如图所示为数据架构 1.0 架构图，分为数仓层、加速层、应用层三部分，数据架构储资源的浪费，维护成本也将随之升高。  应用层：ClickHouse 采用的是计算和存储节点强耦合的架构，架构复杂，组件依赖严重，牵一发而动全身，容易出现集群稳定性问题，对于我们来说，同时维护 ClickHouse 和 Elasticsearch 两套引擎的连接与查询，成本和难度都比较高。除此之外，ClickHouse 由国外开源，交流具有一定的语言学习成本，遇到问题无法准确反

0 码力 | 12 页 | 1.55 MB | 1 年前
3
Greenplum Database 管理员指南 6.2.1

的本地化服务，用户遇到问题，反馈给专业技术支持人员，或者专业售后服务团队，他们会同用户一起排查和解决问题，如果有需要，还会保持与研发的持续沟通，虽然以前也是这种工作模式，但由于时区和语言文化等诸多差异，沟通链路较长，时间较久，研发的本地化，使得沟通的效率大大提高。 GP 是一个纯软件实现的 MPP 数据库产品，采用 Share-Nothing 架构，可管理和处理分布在多个不同主机上的大规模数据集。对于源使用上的优先级，这里说的优先是相对的。这种优先级，几乎是没用的，MAX和MIN之间可能也测不出差异，无法达到资源组的CPU压制效果，如果能达到，也就不需要资源组了。  活动语句的成本限制。该值限制的是，由执行计划评估得到的的Cost值，该值以涉及的磁盘页(disk page)作为计量单位。资源队列创建好之后，ROLE(User)可以被分配到合适的资源队列。一个资源队列达到资源队列限制的值)。一旦一条语句开始执行，其分配的内存一直到执行结束才会释放(即便其实际使用的内存小于分配的内存)。执行优先级如何工作资源限制是针对活动语句来说的，内存和成本的限制属于是否许可类型，其决定查询语句是允许进入查询状态还是保持排队状态。在语句处于活动状态时，其需要分享 CPU资源，这部分的资源由资源队列的优先级控制。当一个更高优先级的语句进入运行状态时，

0 码力 | 416 页 | 6.08 MB | 1 年前
3
TiDB中文技术文档

region-split-size = "256MB" 60. # 当 region 写入的数据量超过该阈值的时候，TiKV 会检查该 region 是否需要分裂。为了减少检查过程 61. # 中扫描数据的成本，数据过程中可以将该值设置为32MB，正常运行状态下使用默认值即可。 62. region-split-check-diff = "32MB" 63. 64. [rocksdb] 65. # RocksDB 般建议延迟在 5ms 以下，目前我们已经有相似客户方案，具体请咨询官方 info@pingcap.com。目前官方文档是获取 TiDB 相关知识最主要、最及时的发布途径。除此之外，我们也有一些技术沟通群，如有需求可发邮件至 info@pingcap.com 获取。详细可参考系统变量。支持，但语义上和 MySQL 有区别，TiDB 是分布式数据库，采用的乐观锁机制，也就说 select for ... ：用于显示 job_id 对应的 DDL 任务的原始 SQL 语句。此 job_id 只搜索正在执行中的任务以及 DDL 历史作业队列中的最近十条结果。是的，TiDB 使用的基于成本的优化器（CBO），我们有一个小组单独会对代价模型、统计信息持续优化，除此之外，我们支持 hash join、soft merge 等关联算法。可以通过 show stats_healthy

0 码力 | 444 页 | 4.89 MB | 6 月前
3
TiDB v5.3 中文手册

众所周知，金融行业对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高。传统的解决方案是同城两个机房提供服务、异地一个机房提供数据容灾能力但不提供服务，此解决方案存在以下缺点：资源利用率低、维护成本高、RTO (Recovery Time Objective) 及 RPO (Recovery Point Objective) 无法真实达到企业 25 所期望的值。TiDB 采用多副本 + Multi-Raft ETL 工具将数据同步到 OLAP 型数据库进行数据分析，这种处理方案存在存储成本高、实时性差等多方面的问题。TiDB 在 4.0 版本中引入列存储引擎 TiFlash 结合行存储引擎 TiKV 构建真正的 HTAP 数据库，在增加少量存储成本的情况下，可以同一个系统中做联机交易处理、实时数据分析，极大地节省企业的成本。 • 数据汇聚、二次加工处理的场景当前绝大部分企业的业务数据都分散在不需要将分散在各个系统的数据汇聚在同一个系统并进行二次加工处理生成 T+0 或 T+1 的报表。传统常见的解决方案是采用 ETL + Hadoop 来完成，但 Hadoop 体系太复杂，运维、存储成本太高无法满足用户的需求。与 Hadoop 相比，TiDB 就简单得多，业务通过 ETL 工具或者 TiDB 的同步工具将数据同步到 TiDB，在 TiDB 中可通过 SQL 直接生成报表。关于

0 码力 | 2374 页 | 49.52 MB | 1 年前
3
TiDB v5.2 中文手册

众所周知，金融行业对数据一致性及高可靠、系统高可用、可扩展性、容灾要求较高。传统的解决方案是同城两个机房提供服务、异地一个机房提供数据容灾能力但不提供服务，此解决方案存在以下缺点：资源利用率低、维护成本高、RTO (Recovery Time Objective) 及 RPO (Recovery Point Objective) 无法真实达到企业所期望的值。TiDB 采用多副本 + Multi-Raft ETL 工具将数据同步到 OLAP 型数据库进行数据分析，这种处理方案存在存储成本高、实时性差等多方面的问题。TiDB 在 4.0 版本中引入列存储引擎 TiFlash 结合行存储引擎 TiKV 构建真正的 HTAP 数据库，在增加少量存储成本的情况下，可以同一个系统中做联机交易处理、实时数据分析，极大地节省企业的成本。 • 数据汇聚、二次加工处理的场景当前绝大部分企业的业务数据都分散在不需要将分散在各个系统的数据汇聚在同一个系统并进行二次加工处理生成 T+0 或 T+1 的报表。传统常见的解决方案是采用 ETL + Hadoop 来完成，但 Hadoop 体系太复杂，运维、存储成本太高无法满足用户的需求。与 Hadoop 相比，TiDB 就简单得多，业务通过 ETL 工具或者 TiDB 的同步工具将数据同步到 TiDB，在 TiDB 中可通过 SQL 直接生成报表。 2.1

0 码力 | 2259 页 | 48.16 MB | 1 年前
3
Apache Doris 在美团外卖数仓中的应用实践

Apache Doris在美团外卖数仓中的应用实践序言美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析，由于外卖业务特点带来的数据生产成本较高和查询效率偏低的问题，他们通过引入Apache Doris引擎优化生产方案，实现了低成本生产与高效查询的平衡。并以此分析不同业务场景下，基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的适用性问题。希望能对大家有所启发或者帮助。引擎百花齐放，但由于业务的复杂性与多样性，目前并没有哪个引擎能够适配所有业务场景，因此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数据应用效率最大化，同时兼顾研发、生产与运维成本的最小化，建设持续进步的数仓能力，也欢迎大家多给我们提出建议。数仓交互层引擎的应用现状目前，互联网业务规模变得越来越大，不论是业务生产系统还是日志系统，基本上都是基于Hado op/Spa https://www.iteblog.com 所得的应用场景，美团平台使用Kylin作为公司的主要MOLAP引擎。MOLAP是预计算生产，在增量业务，预设维度分析场景下表现良好，但在变化维的场景下生产成本巨大。例如，如果使用最新商家类型回溯商家近三个月的表现，需要重新计算三个月的Cube，需花费几个小时，来计算近 TB的历史数据。另外，应对非预设维度分析，MOLAP模型需要重新进行适配计算，也需要一定的

0 码力 | 8 页 | 429.42 KB | 1 年前
3
PieCloudDB 的云原生之路

• 产品要能快速进行计算资源的弹性伸缩 IvorySQL开源数据库社区我们需要一个云原生大数据平台缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 传统分布式 MPP 架构痛点 IvorySQL开源数据库社区 PART 02 云原生数据库 PieCloudDB 例如：投资管理系统和财务管理系统可以各自管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使用时间和规模计算成本，而不是购买大量服务器静置为不确定的使用额外支付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从而建立竞争壁垒。 1 2 3 产品理念最终实现大速度云计算时代的到来数据计算时代的到来服务器整合,降低服务器硬件成本云计算平台统一运维降低成本服务器资源池可用空间增大数据资源池可用空间增大虚拟机动态迁移对硬件无感知数仓整合，降低服务器硬件或者虚拟机成本数据计算平台统一运维降低成本虚拟数仓数仓高在线虚拟数仓动态 spinoff/retire 对计算资源无感知虚拟机高在线

0 码力 | 47 页 | 1.80 MB | 1 年前
3
PieCloudDB云原生数仓虚拟化之路

rights reserved. OpenPie Confidential 我们需要一个云原生大数据平台缺乏弹性业务使用不灵活成本高昂集群固定，资源利用率低木桶效应扩容难数据孤岛元数据和用户数据跨集群访问困难运维成本运维和DBA 传统分布式MPP架构痛点 @2022 OpenPie. All rights reserved. OpenPie Confidential 例如：投资管理系统和财务管理系统可以各⾃管理，按需分享。计算：云上计算资源可以弹性分配。有查询计算任务的时候按需启动，按照使⽤时间和规模计算成本，⽽不是购买⼤量服务器静置为不确定的使⽤额外⽀付成本。发现：在云上，对计算模型以更低成本提供指数级的存储和计算资源，帮助甲方的业务模型发现新洞察或者提高精准度，从⽽建⽴竞争壁垒。 1 2 3 产品理念最终实现大速度云计算时代的到来数据计算时代的到来服务器整合,降低服务器硬件成本云计算平台统⼀运维降低成本服务器资源池可⽤空间增⼤数据资源池可⽤空间增⼤虚拟机动态迁移对硬件⽆感知数仓整合，降低服务器硬件或者虚拟机成本数据计算平台统⼀运维降低成本虚拟数仓数仓⾼在线虚拟数仓动态spinoff/retire对计算资源⽆感知虚拟机⾼在线服

0 码力 | 44 页 | 1.64 MB | 1 年前
3
πDataCS赋能工业软件创新与实践

Host 2 Executor Host 3 Data Table Data Table Data Table 数仓虚拟化：物理数仓整合 ü 数量级降低成本的时候数量级增加数据计算空间（私有部署更加敏感） ü 按需弹性开启/关闭虚拟数仓，灵活配置存算节点 ü 打破数据孤岛，消除数据多副本 @2024 OpenPie. All rights reserved D B 云原⽣虚拟数仓核⼼价值物理数仓整合到云原⽣数据计算平台，根据数据授权动态创建虚拟数仓，打破数据孤岛，解决数据多副本问题，帮助企业降低数仓管理复杂度，以更低的成本实现存算资源在云上更灵活的配置。 TDE技术保证了所有数据在落盘前完成加密，服务器⽆感知技术（Serverless）利用云上⽆限计算资源和弹性保证了虚拟数仓永远在线可用，S3存储和跨云灾备能⼒保证了永不丢数。云灾备能⼒保证了永不丢数。数据计算资源按需扩缩容，实现计算资源配置最优化，提升数仓的敏捷性和弹性，打开⽆限数据计算空间，支撑更⼤模型所需的数据和计算。更好地赋能业务发展并⾛向绿⾊。降低数仓硬件和管理成本提升数据计算资源利用效益坚如磐⽯ | ⾼安全⾼在线⾼可靠突破性创新的核⼼技术出⾊的数仓成本效益 @2024 OpenPie. All rights reserved

0 码力 | 36 页 | 4.25 MB | 1 年前
3
PieCloudDB Database 产品白皮书

所带来的挑战。面对数据计算 (Data Computing) 的巨大诉求、数据组织的运行成本的急剧增加、数据格式的丰富多样，企业的数字化转型面临巨大挑战，急需一款数据库产品，帮助其最大化利用数据资产，降本增效，进行更智能高效的数据计算。数据库的未来在云上随着云计算时代的到来，不仅使得计算成本极大地降低，也提供了无限丰富的计算资源，释放出数据计算产生智能的更多机会。早在2019年，Gartner便做出预测: 的生产环境资源利用率，无论是存储或是计算资源往往都不尽人意。随着存储和工作负载需求的日益增长，面临数据库的扩容和升级时，由于传统数据仓库架构存储和计算的紧密耦合，往往需要企业花费巨大的运维和时间成本，且操作繁琐。木桶效应传统 MPP 数据仓库架构存在“木桶效应”，集群整体执行速度取决于最“短板的”节点的性能。因此，一个节点的表现往往会 “拖幸”整个集群的性能，导致查询速度变慢。随会在不同集群间存在不一致的版本信息。此外，如果企业需要做跨集群的访问，往往非常困难，会造成数据孤岛的存在。运维成本对于传统 MPP 数仓，企业往往会需要配备运维人力，且对运维、开发人员要求高，需要相关人员掌握复杂的技术栈，技术的更新迁代迅速，相关人员需保持积极的知识更新意识。根关人才市场较小，人才芽乏。高昂的学习成本造成用户使用过程中性能差、故障率高、故障修复时间长等问题。云时代的数据处理要求随着数

0 码力 | 17 页 | 2.68 MB | 1 年前
3

共 75 条前往

页

分类

语言

格式