信息安全 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

尚硅谷大数据技术之Hadoop（生产调优手册）

SSD，DISK hadoop104 DISK，RAM_DISK hadoop105 ARCHIVE hadoop106 ARCHIVE 2）配置文件信息（1）为 hadoop102 节点的 hdfs-site.xml 添加如下信息 dfs.replication 2 module/hadoop- 3.1.3/hdfsdata/ram_disk （2）为 hadoop103 节点的 hdfs-site.xml 添加如下信息 dfs.replication 尚硅谷大数据技术之 Hadoop（生产调优手册） ————— [DISK]file:///opt/module/hadoop- 3.1.3/hdfsdata/disk （3）为 hadoop104 节点的 hdfs-site.xml 添加如下信息 dfs.replication 2 dfs

0 码力 | 41 页 | 2.32 MB | 1 年前
3
银河麒麟服务器操作系统V4 Hadoop 软件适配手册

银河麒麟服务器操作系统 V4 Hadoop 软件适配手册天津麒麟信息技术有限公司 2019 年 5 月银河麒麟服务器操作系统 V4 hadoop 软件适配手册 I 目录目录 ............................................................................. hadoop 软件适配手册 2 1 概述 1.1 系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域，突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势，针对关键业务构建的丰富高效、安全可靠的功能特性，兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品，以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间品，以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间件，满足虚拟化、云计算和大数据时代，服务器业务对操作系统在性能、安全性及可扩展性等方面的需求，是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。 1.2 环境概述服务器型号长城信安擎天 DF720 服务器 CPU 类型飞腾 2000+处理器操作系统版本 Kylin-4.0.2-server-sp2-2000-19050910

0 码力 | 8 页 | 313.35 KB | 1 年前
3
大数据时代的Intel之Hadoop

大数据时代的Intel乊Hadoop 系统方案架构师：朱海峰英特尔®中国于计算创新中心 2013.4 北京法律声明本文所提供乊信息均不英特尔® 产品相关。本文丌代表英特尔公司戒其它机构向仸何人明确戒隐含地授予仸何知识产权。除相关产品的英特尔销售条款不条件中列明乊担保条件以外，英特尔公司丌对销售和/戒使用英特尔产品做出其它仸何明确戒隐含的担保，包括对适用亍特定用途、适销英特产品所丌具有的特性，设计者亦丌应信赖仸何标有保留权利摂戒未定义摂说明戒特性描述。英特尔保留今后对其定义的权利，对亍因今后对其迚行修改所产生的冲突戒丌兼容性概丌负责。此处提供的信息可随时改变而毋需通知。请勿使用本信息来对某个设计做出最终决定。文中所述产品可能包含设计缺陷戒错误，已在勘误表中注明，这可能会使产品偏离已经发布的技术规范。英特尔提供最新的勘误表备索。订购产品前，请联系您当地产品的性能。系统硬件、软件设计戒配置的仸何差异都可能影响实际性能。购买者应迚行多方咨询，以评估其考虑购买的系统戒组件的性能。如欲了解有关性能测试和英特尔产品性能的更多信息，请访问:英特尔性能挃标评测局限此处涉及的所有产品、计算机系统、日期和数字信息均为依据当前期望得出的初步结果，可随时更改，恕丌另行通知。英特尔、英特尔标识、英特尔酷睿、至强、Core Inside、Xeon Inside、英特尔凌劢、英特尔

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

.................................................................................. 22 6.3.1 迁移评估信息收集 ................................................................................................ .......... 44 7.1.2 解压工具包，并配置 MaxCompute 连接信息 ................................................................. 45 7.1.3 运行 meta-carrier 收集 meta 信息 .............................................. Cloud MaxCompute 解决方案 6 1 概要 Hadoop 在企业构建第一代大数据平台中成为主流的技术框架，但是随着企业信息化的高速发展，在数字化、智能化的转型过程中，Hadoop 越来越复杂的技术架构和运维成本、平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈，严重阻碍了客户数据业务的发展。随着云计算技术的发展和普及，越来越多的企业客户选择数据上云，在云上构建数据仓库。以云数

0 码力 | 59 页 | 4.33 MB | 1 年前
3
大数据集成与Hadoop - IBM

可以通过这项技术一一实现，从而大幅降低成本并创造新的收入。依靠收集、移动、转换、清除、集成、治理、探索以及分析多种不同来源的大量不同类型的数据来实现大数据与Hadoop项目。实现所有这些目标需要运用富有弹性的端到端信息集成解决方案，该解决方案不仅可实现大规模扩展，还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上，80%的大数据项目开发精力用于数据集成，只有20%的精力投入 Hadoop 基础架构本身并非完整或有效的大数据集成解决方案（请阅读此报告，其中对Hadoop为何并非数据集成平台进行了讨论）。更加糟糕的是，一些Hadoop软件供应商利用炒作、神话、误导或矛盾信息来渗透市场。为彻底切断这种误导，并开发适合您的Hadoop大数据项目的采用计划，必须遵循最佳实践方法，充分考虑各种新兴技术、可扩展性需求以及当前的资源和技能水平。面临的挑战：创建最佳开始集成之旅以前，请务必了解MapReduce的性能限制，以及数据集成供应商在解决这类问题方面的差异。请在 “Themis: An I/O-Efficient MapReduce”一文中了解更多信息，文中对该主题进行了详细讨论：http://bit. ly/1v2UXAT 4 大数据集成与 Hadoop 源数据转换净化丰富 EDW 连续单处理器 SMP系统 MPP群集系统或GRID

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

的集中管理解决方案用于维护分布式系统的配置。由于 ZooKeeper 用于维护信息，因此任何新节点一旦加入系统，将从 ZooKeeper 中获取最新的集中式配置。这也使得你只需要通过 ZooKeeper 的一个客户端改变集中式配置，便能改变分布式系统的状态。名称服务是将某个名称映射为与该名称相关信息的服务。它类似于活动目录，作为一项名称服务，活动目录的作用是将某人的用户示，强烈推荐直接从供应商处获取此信息。选择像 HDP 这样产品的美妙之处在于他们是 Hadoop 的主要贡献者之一。这便开启了在多种数据库资源上使用 Hadoop 的大门。应用* 源 *请向供应商确认。资源可能会有所不同。 HADOOP 数据访问 YARN 数据管理开发和数据工具* 数据系统* 治理与集成安全操作操作工具* 基础设施* Cloudera 为集成结构化和非结构化的数据创造了条件。通过使用平台交付的统一服务，Cloudera 开启了处理和分析多种不同数据类型的大门(见图 1-5)。处理、分析和服务安全文件系统 (HDFS) 关系型非结构化批处理流搜索统一服务资源管理(YARN) 存储结构化集成图 1-5 1.4.2 数据集成与 Hadoop

0 码力 | 17 页 | 583.90 KB | 1 年前
3
Hadoop开发指南

Hadoop开发指南开发指南注解：本例中所运⾏脚本需在CentOS操作系统上，其他操作系统请修改脚本后再尝试执⾏。 1. 在在UHost上安装上安装Hadoop客户端客户端出于安全性考虑，⼀般建议⽤⼾在⾮UHadoop集群机器上安装客⼾端进⾏任务提交与相关操作 1.1 控制台安装控制台安装可通过控制台⼀键安装，参考：客⼾端安装。 1.2 ⾃⾏安装⾃⾏安装针对部分存重启NodeManager：service hadoop-yarn-nodemanager restart 重启整个Hadoop服务：请通过UCloud控制台集群服务管理⻚⾯操作 2.5.2 查看查看HDFS状态，节点信息状态，节点信息 hdfs dfsadmin -report 2.5.3 修改修改HDFS⽂件副本数量⽂件副本数量 hdfs dfs -setrep -R [replication-factor]

0 码力 | 12 页 | 135.94 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

8）配置 ssh 9）群起并测试集群 3.2.1 虚拟机准备详见 2.1、2.2 两节。 3.2.2 编写集群分发脚本 xsync 1）scp（secure copy）安全拷贝（1）scp 定义 scp 可以实现服务器与服务器之间的数据拷贝。（from server1 to server2）（2）基本语法 scp -r $pdir/$fname （a）浏览器中输入：http://hadoop102:9870 （b）查看 HDFS 上存储的数据信息（5）Web 端查看 YARN 的 ResourceManager （a）浏览器中输入：http://hadoop103:8088 （b）查看 YARN 上运行的 Job 信息 3）集群基本测试（1）上传文件到集群 ➢ 上传小文件 [atguigu@hadoop102 人工智能资料下载，可百度访问：尚硅谷官网 5）查看 JobHistory http://hadoop102:19888/jobhistory 3.2.7 配置日志的聚集日志聚集概念：应用运行完成以后，将程序运行日志信息上传到 HDFS 系统上。日志聚集功能好处：可以方便的查看到程序运行详情，方便开发调试。注意：开启日志聚集功能，需要重新启动 NodeManager 、ResourceManager

0 码力 | 35 页 | 1.70 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

引言许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的明细信息，以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据存储在数据库之外，但一些客户仍然希望将其与数据库中的数据整合在一起以提取对业务用户有价值的信息。本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注意，本文选择了地址：北京市朝阳区景华南街5号远洋光华中心C座21层邮编：100020 电话：(86.10) 6535-6688 传真：(86.10) 6515-1015 北京上地6号办公室地址：北京市海淀区上地信息产业基地，上地西路8号，上地六号大厦D座702室邮编：100085 电话：(86.10) 8278-7300 传真：(86.10) 8278-7373 上海分公司地 -25单元邮编：610041 电话：(86.28) 8530-8600 传真：(86.28) 8530-8699 大连分公司地址：大连软件园东路23号大连软件园国际信息服务中心2号楼五层502号A区邮编：116023 电话：(86.411) 8465-6000 传真：(86.411) 8465-6499 济南分公司地址：济南市泺源

0 码力 | 21 页 | 1.03 MB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

记录的是粗颗粒度的特定数据转换（Transformation）操作（filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时，它可以通过 Lineage 获取足够的信息来重新运算和恢复丢失的数据分区。这种粗颗粒的数据模型，限制了 Spark 的运用场合，但同时相比细颗粒度的数据模型，也带来了性能的提升。 RDD 在 Lineage 依赖方面分为两种 Narrow

0 码力 | 3 页 | 172.14 KB | 1 年前
3

共 10 条前往

页

分类

语言

格式

尚硅谷大数据技术之Hadoop（生产调优手册）

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

大数据时代的Intel之Hadoop

Hadoop 迁移到阿里云MaxCompute 技术方案

大数据集成与Hadoop - IBM

Hadoop 概述

Hadoop开发指南

尚硅谷大数据技术之Hadoop（入门）

通过Oracle 并行处理集成 Hadoop 数据

Spark 简介以及与 Hadoop 的对比