Greenplum 精粹文集64MB)。 ·MPP 采用 SQL 并行查询计划,Hadoop 采用 Mapreduce 框架。 基于以上不同,体现在效率、功能等特性方面也大不相同。 Big Date2.indd 12 16-11-22 下午3:38 Greenplum 精粹文集 13 1) 计算效率的比较 先说说 Mapreduce 技术。 Mapreduce 相比而言是一种较为蛮力计算方式(业内曾经甚至有 声音质疑 MPP 预先会把数据有效的组织(有模式), 例如:行列表关系、Hash 分布、索引、分区、列存储等、统计信 息收集等,这就决定了在计算过程中效率大为不同: ·MAP 效率对比 Hadoop 的 MAP 阶段需要对数据再解析,而 MPP 数据库则会直接 取行列表,效率高。 Hadoop 按 64MB 拆分文件,而且数据不能保证在所有节点都均匀 分布,因此,MAP 过程的并行化程度低;MPP 数据库按照数据记 Hash 分布,粒度更细,数据分布在所有节点中非常均匀, 并行化程度很高。 HadoopHDFS 没有灵活的索引、分区、列存储等技术支持,而 MPP 通常利用这些技术大幅提高数据的检索效率。 ·MAShuffle 效率对比 Hadoop Shuffle 对比 MPP 计算中的重分布 -- 由于 Hadoop 数据 与节点的无关性,Shuffle 是基本避免不了的;而 MPP 数据库对于 相同 Hash0 码力 | 64 页 | 2.73 MB | 1 年前3
Apache Doris 在美团外卖数仓中的应用实践iteblog.com Apache Doris在美团外卖数仓中的应用实践 序言 美团外卖数据仓库技术团队负责支撑日常业务运营及分析师的日常分析,由于外卖业务特点带来 的数据生产成本较高和查询效率偏低的问题,他们通过引入Apache Doris引擎优化生产方案,实 现了低成本生产与高效查询的平衡。并以此分析不同业务场景下,基于Kylin的MOLAP模式与基于 Doris引擎的ROLAP模式的 大环境下,各种数据 引擎百花齐放,但由于业务的复杂性与多样性,目前并没有哪个引擎能够适配所有业务场景,因 此希望通过我们的业务实践与思考为大家提供一些经验参考。美团外卖数仓技术团队致力于将数 据应用效率最大化,同时兼顾研发、生产与运维成本的最小化,建设持续进步的数仓能力,也欢 迎大家多给我们提出建议。 数仓交互层引擎的应用现状 目前,互联网业务规模变得越来越大,不论是业务生产系统还是日志系统,基本上都是基于Hado 应用层模型复杂,根据业务需要以及Kylin生产需要,还要做较多模型预处理。这样在不同 的业务场景中,模型的利用率也比较低。 2. Kylin配置过程繁琐,需要配置模型设计,并配合适当的“剪枝”策略,以实现计算成本与查 询效率的平衡。 3. 由于MOLAP不支持明细数据的查询,在“汇总+明细”的应用场景中,明细数据需要同步到 DBMS引擎来响应交互,增加了生产的运维成本。 4. 较多的预处理伴随着较高的生产成本。0 码力 | 8 页 | 429.42 KB | 1 年前3
Pivotal HVR meetup 20190816Data Replication. What is HVR? 4 Key Benefits of Using HVR for your Business 提升业务洞察力 关键业务连续性 提高效率 降低风险 5 Geographical Distribution Real-Time Analytics Data Lake Data Warehouse Cloud HVR 连续数据集成技术 、包办手续等一站 式二手车交易服务。 天天拍车运用互联网技术,从根本上解决了二手车跨各区域成交和流 通效率低下等问题,持续推进行业升级变革。全国二手车经销商传统 的线下收车方式正在被快速颠覆——二手车经销商通过天天拍车的在 线竞拍系统,在手机端就能轻松竞拍到全国海量优质车源,收车效率 和运营效率得以提升,这有助于二手车经销商专注于车辆整备和二手 车零售,加速行业专业化分工、实现规模化发展。 同时, 对于增量备份可以支持准实时的同步也可以支持延时同步 ➢ 同步软件不会对源库造成负载上升的问题 ➢ 同步中断后能够记录中断点,在下次同步时可以自动从中断点开始继续同步数据 ➢ 能够提供对同步组件的监控 ➢ 操作简单,运维效率高 参考:https://mp.weixin.qq.com/s/zgCfcbMKOJRYROdxjW6RNA 15 Compare Products 参考:https://mp.weixin0 码力 | 31 页 | 2.19 MB | 1 年前3
TiDB v8.4 中文手册pingcap.com/zh/tidb/v8.4/partitioned-table#全局索引"> �→ 分区表全局索引成为正式功能全局索引可以有效提高检索非分区列的效率,并且消除了唯一键必须包含分区键的限制。该功能扩展了 �→ TiDB 分区表的使用场景,避免了数据迁移过程中的一些应用修改工作。 SQL 支持按表或数据库维度聚合 0 码力 | 5072 页 | 104.05 MB | 10 月前3
TiDB v8.5 中文手册pingcap.com/zh/tidb/v8.4/partitioned-table#全局索引"> �→ 分区表全局索引成为正式功能全局索引可以有效提高检索非分区列的效率,并且消除了唯一键必须包含分区键的限制。该功能扩展了 �→ TiDB 分区表的使用场景,避免了数据迁移过程中的一些应用修改工作。 SQL 支持按表或数据库维度聚合 0 码力 | 5095 页 | 104.54 MB | 10 月前3
TiDB v8.2 中文手册2/tidb-configuration-file#stats-load-concurrency �→ -从-v540-版本开始引入">统计信息加载效率提升 10 倍对于拥有大量表和分区的集群,比如 SaaS 或 PaaS 服务,统计信息加载效率的提升能够解决 TiDB �→ 实例启动缓慢的问题,同时也能提升统计信息动态加载的成功率, �→ 从而减少由于统计信息加载失败造成的性能回退,提升集群的稳定性。 数据处理量。该功能默认开启,控制该功能的变量 tidb_enable_parallel_hashagg_spill 将在未来版 本中废弃。 更多信息,请参考用户文档。 36 2.2.1.2 稳定性 • 统计信息加载效率提升 10 倍 #52831 @hawkingrei SaaS 或 PaaS 类业务应用中可能存在大量的数据表,这些表不但会拖慢初始统计信息的加载速度,也会 增加高负载情况下同步负载的失败率。TiDB JSON 数据验证,开发和维护比较复杂,开发 效率低。从 v8.2.0 版本开始,引入了 JSON_SCHEMA_VALID() 函数。通过在 CHECK 约束中使用 JSON_SCHEMA �→ _VALID(),可以避免插入不符合要求的数据,而不是事后检查数据。你可以在 TiDB 中直接验证 JSON 数据的有效性,提高数据的完整性和一致性,提升了开发效率。 更多信息,请参考用户文档。 2.20 码力 | 4987 页 | 102.91 MB | 10 月前3
TiDB v8.1 中文手册从 �→ v8.0.0 开始 GA)全局排序功能旨在提高 IMPORT INTO和CREATE INDEX的稳定性与效率。 �→ 通过对需要处理的数据进行全局排序,可以提高数据写入 TiKV 的稳定性、可控性和可扩展性, �→ 从而提升数据导入与索引添加的用户体验和服务质量。启用全局排序后,单条IMPORT schema-unused-indexes">sys.schema_unused_indexes,用于记录索引的使用情况 �→ 。该功能有助于用户评估数据库中索引的效率并优化索引设计。数据迁移 TiCDC 支持 0 码力 | 4807 页 | 101.31 MB | 1 年前 3
TiDB v8.0 中文手册schema-unused-indexes">sys.schema_unused_indexes, �→ 用于记录索引的使用情况。该功能有助于用户评估数据库中索引的效率并优化索引设计。数据迁移 TiCDC 支持 0 码力 | 4805 页 | 101.28 MB | 1 年前 3
谈谈MYSQL那点事表结构设计原则 选择字段的一般原则是保小不保大,能用占用字节 少的字段就不用大字段。比如,主键,强烈建议用 int 整型 . 不用 bigint ,为什么 ? 省空间啊。空间是什么 ? 空间就是效率!按 4 个字节和按 32 个字节定位一条记 录,谁快谁慢太明显了。涉及几个表做 join 时, 效果 就更明显了。更小的字段类型占用的内存就更少,占用 的磁盘空间和磁盘 I/O 也会更少,而且还会占用更少的 DISTINCT DISTINCT 、 、 OR OR 、 、 IN IN 等语句的使用 等语句的使用 , , 避免使用联表查询和子查询,因为将使执行效率大大下降 避免使用联表查询和子查询,因为将使执行效率大大下降 能够使用索引的字段尽量进行有效的合理排列,如果使用了 能够使用索引的字段尽量进行有效的合理排列,如果使用了 联合索引,请注意提取字段的前后顺序 SELECT COUNT(*) FROM Tbl 在 在 InnoDB InnoDB 中将会扫描全 中将会扫描全 表 表 MyISAM MyISAM 中则效率很高 中则效率很高 MySQL MySQL 技巧分享 技巧分享 Explain Explain 使用 使用 语法: 语法: EXPLAIN SELECT EXPLAIN SELECT select_options0 码力 | 38 页 | 2.04 MB | 1 年前3
TiDB v7.6 中文手册JSON_CONTAINS_PATH() 更多信息,请参考用户文档。 • 建表性能提升 10 倍(实验特性)#49752 @gmhdbjd 在之前的版本里,将上游数据库上万张表迁移到 TiDB 时,TiDB 创建这些表耗时长,效率低。从 v7.6.0 开 始,引入了新的 TiDB DDL V2 架构,你可以通过设置系统变量tidb_ddl_version 开启。相比之前的版本, 新版本的 DDL 批量建表性能提升了高达 10 开始废弃,废弃后将不再支持乐观事务的自动重 试。 2.2.5 改进提升 • TiDB – 当使用非二进制排序规则并且查询条件中包含 LIKE 时,优化器可以生成 IndexRangeScan 以提升执 行效率 #48181 #49138 @time-and-fate – 增强特定情况下 OUTER JOIN 转 INNER JOIN 的能力 #49616 @qw4990 – 提升分布式执行框架任务在节点重启场景下的均衡性 注入的风险,推荐使用预处理语句执行 SQL。 160 • 在不涉及大量复杂 SQL 语句的场景下,推荐使用 ORM 框架 (例如:Sequelize、TypeORM 或 Prisma) 来提升你 的开发效率。 • 当你在数据表中使用到 BIGINT 和 DECIMAL 类型列时,需要开启 Driver 的 supportBigNumbers: true 选项。 • 为了避免由于网络原因出现的 read0 码力 | 4666 页 | 101.24 MB | 1 年前3共 68 条- 1
- 2
- 3
- 4
- 5
- 6
- 7













