RLP编码 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些流程缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS（使用ETL工具或手动编码） • 无法利用商业硬件 • 通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速度较慢优点 • 利用MapReduce MPP引擎 • 利用商业硬件和存储 • 释放数据库服务器上的容量大重要指导原则： 1. 将大数据集成处理推向数据，而不是将数据推向处理：指定可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码：手动编码费用昂贵，而且无法有效适应快速频繁的调整。另外，手动编码不支持自动收集对数据治理至关重要的设计和操作元数据。 3. 不要为RDBMS、Hadoop和ETL网格创建单独的集成开发环境：这种做法没有任何实际意义，而且支持费用非常昂 MapReduce包含多种设施，可将较小的引用数据结构迁移至各映射节点，以便执行某些验证和增强操作。因此，会将整个引用文件迁移至各映射节点，这使其更适合较小的引用数据结构。如果进行手动编码，必须考虑这些处理流，因此最好采用一些工具来生成代码，从而将数据集成逻辑下推到 MapReduce（也称为ETL pushdown）。 8 大数据集成与 Hadoop 在Hadoop中使用ETL

0 码力 | 16 页 | 1.23 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

numDataUnits=2, numParityUnits=1]], CellSize=1048576, Id=4], State=DISABLED 3）纠删码策略解释: RS-3-2-1024k：使用 RS 编码，每 3 个数据单元，生成 2 个校验单元，共 5 个单元，也就是说：这 5 个单元中，只要有任意的 3 个单元存在（不管是数据单元还是校验单元，只要尚硅谷大数据技术之 RS-10-4-1024k：使用 RS 编码，每 10 个数据单元（cell），生成 4 个校验单元，共 14 个单元，也就是说：这 14 个单元中，只要有任意的 10 个单元存在（不管是数据单元还是校验单元，只要总数=10），就可以得到原始数据。每个单元的大小是 1024k=1024*1024=1048576。 RS-6-3-1024k：使用 RS 编码，每 6 个数据单元，生成 3 个校验单元，共 1024k=1024*1024=1048576。 RS-LEGACY-6-3-1024k：策略和上面的 RS-6-3-1024k 一样，只是编码的算法用的是 rs- legacy。 XOR-2-1-1024k：使用 XOR 编码（速度比 RS 编码快），每 2 个数据单元，生成 1 个校验单元，共 3 个单元，也就是说：这 3 个单元中，只要有任意的 2 个单元存在（不管是数据单元还是校验单元，只要总数=

0 码力 | 41 页 | 2.32 MB | 1 年前
3
Hadoop 3.0以及未来

• MapReduce HDFS纠错码(Erasure Coding) • 一个简单的例子 1备份: 1,0 需要额外的2位 XOR编码: 1,0 需要额外的1位 HDFS纠错码(Erasure Coding) • Reed-Solomon (RS) 编码数据可靠性和存储效率 • 数据可靠性：可以最多几个节点故障 • 存储效率：k/(k+m) 可靠性存储效率单副本 0 100%

0 码力 | 33 页 | 841.56 KB | 1 年前
3

共 3 条前往

页

大数集成 Hadoop IBM 硅谷技术生产调优手册 3.0 以及未来

分类

语言

格式

大数据集成与Hadoop - IBM

尚硅谷大数据技术之Hadoop（生产调优手册）

Hadoop 3.0以及未来