生命值事件 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

大数据集成与Hadoop - IBM

集成导致难以在整个企业中实现数据治理。 14 大数据集成与 Hadoop 建立世界级数据治理机制至关重要，并为所有关键数据资产（包括Hadoop环境，但不仅限于此）创建完全受治理的数据生命周期。以下是创建全面数据生命周期的建议步骤： • 查找：利用条款、标记和集合来查找接受治理和监管的数据源 • 监管：为相关资产添加标记、条款和自定义属性 • 收集：通过收集来捕获资产，并开展具体的分析或治理基于Web的集成式安装程序，用于执行所有功能 • 高可用性配置，用于满足全天候需求 • 灵活的部署选项，用于部署新实例或展开经过优化的专家硬件系统上的现有实例 • 集中实现身份验证、授权和会话管理 • 审核安全相关事件的日志记录，推动满足《萨班斯奥克斯利法案》合规性要求 • 实验室认证，针对各种Hadoop发行版 IBM软件 15 大数据集成最佳实践为成功奠定了坚实的基础企业正在纷纷转向大数据措施，期望帮助自己削减成本、提高收

0 码力 | 16 页 | 1.23 MB | 1 年前
3
這些年，我們一起追的Hadoop

/ 74 Cloudera 派： Intel (金主) DataBricks (Spark 平台) IBM Oracle MapR ... Hortonworks 派： Microsoft (生命共同體) ... 56 / 74 意見分歧？殊途同歸？ Hive vs. Impala Did Cloudera Just Shoot Their Impala? Cloudera 一年多前希望最終能夠取代

0 码力 | 74 页 | 45.76 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

all nodes. NameNode 有一个工作线程池，用来处理不同 DataNode 的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是 10。 dfs.namenode.handler.count 21 namenode.handler.count=20 × ??????????? ????，比如集群规模（DataNode 台数）为 3 台时，此参数设置为 21。可通过简单的 python 代码计算该值，代码如下。 [atguigu@hadoop102 ~]$ sudo yum install -y python [atguigu@hadoop102 ~]$ python Python 2.7 人工智能资料下载，可百度访问：尚硅谷官网 2）开启回收站功能参数说明（1）默认值 fs.trash.interval = 0，0 表示禁用回收站；其他值表示设置文件的存活时间。（2）默认值 fs.trash.checkpoint.interval = 0，检查回收站的间隔时间。如果该值为 0，则该值设置和 fs.trash.interval 的参数值相等。（3）要求 fs.trash

0 码力 | 41 页 | 2.32 MB | 1 年前
3
大数据时代的Intel之Hadoop

Hadoop研发团队推劢产业应用交通指挥的挑战 ——典型中国二线城市 • 机劢车的迅速增加 • 复杂数据分析 • 数据挖掘不预测 • 突发事件应对 • 公众服务 • 公众访问高幵发 • 其他系统亏连面对快速增长的数据，如何满足交通挃挥要求? 0 500,000 1,000,000 1,500,000 2,000

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 概述

第 1 章 Hadoop 概述 3 例如，让我们考虑类似 Google、Bing 或者 Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大型数据存储。类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数据存储并从中产生出有意义的结果。通常用于商业分析的传统工具

0 码力 | 17 页 | 583.90 KB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

输入的键值对会被转换成零到多个键值对输出。其中输入和输出的键必须完全不同，而输入和输出的值则可能完全不同。  reduce：某个键的所有键值对都会被分发到同一个 reduce 操作中。确切的说，这个键和这个键所对应的所有值都会被传递给同一个 Reducer。reduce 过程的目的是将值的集合转换成一个值（例如求和或者求平均），或者转换成另一个集合。这个 Reducer 最终会产生一个键值对。需要说明的是，如果

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式：转换（返回值还是一个 RDD）与操作（返回值不是一个 RDD） 1. 转换(Transformations) (如：map, filter, groupBy, join 等)，Transformations 操作是 Lazy

0 码力 | 3 页 | 172.14 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

ResourceManager NodeManager NodeManager 2）配置文件说明 Hadoop 配置文件分两类：默认配置文件和自定义配置文件，只有用户想修改某一默认配置值时，才需要修改自定义配置文件，更改相应属性值。（1）默认配置文件：要获取的默认文件文件存放在 Hadoop 的 jar 包中的位置 [core-default.xml] hadoop-common-3

0 码力 | 35 页 | 1.70 MB | 1 年前
3

共 8 条前往

页

分类

语言

格式

大数据集成与Hadoop - IBM

這些年，我們一起追的Hadoop

尚硅谷大数据技术之Hadoop（生产调优手册）

大数据时代的Intel之Hadoop

Hadoop 概述

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Spark 简介以及与 Hadoop 的对比

尚硅谷大数据技术之Hadoop（入门）