拖拽操作 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

银河麒麟服务器操作系统 V4 Hadoop 软件适配手册天津麒麟信息技术有限公司 2019 年 5 月银河麒麟服务器操作系统 V4 hadoop 软件适配手册 I 目录目录 ............................................................................. ....................................................... 7 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 2 1 概述 1.1 系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域，突出高安全性、高可用性、高效数据处理、虚拟化等金蝶、东方通等国产中间件，满足虚拟化、云计算和大数据时代，服务器业务对操作系统在性能、安全性及可扩展性等方面的需求，是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。 1.2 环境概述服务器型号长城信安擎天 DF720 服务器 CPU 类型飞腾 2000+处理器操作系统版本 Kylin-4.0.2-server-sp2-2000-19050910

0 码力 | 8 页 | 313.35 KB | 1 年前
3
Spark 简介以及与 Hadoop 的对比

的最基本抽象,是对分布式内存的抽象使用，实现了以操作本地集合的方式来操作分布式数据集的抽象实现。RDD 是 Spark 最核心的东西，它表示已被分区，不可变的并能够被并行操作的数据集合，不同的数据集格式对应不同的 RDD 实现。RDD 必须是可序列化的。RDD 可以 cache 到内存中，每次对 RDD 数据集的操作之后的结果，都可以存放到内存中，下一个操作可以直接从内存中输入，省去了 MapReduce 大量的磁盘 IO 操作。这对于迭代运算比较常见的机器学习算法, 交互式数据挖掘来说，效率提升比较大。 1.2.2 RDD 的转换与操作对于 RDD 可以有两种计算方式：转换（返回值还是一个 RDD）与操作（返回值不是一个 RDD） 1. 转换(Transformations) (如：map, filter, groupBy, join 等)，Transformations 操作是 Lazy 的，也就是说从一个 RDD 转换生成另一个 RDD 的操作不是马上执行，Spark 在遇到 Transformations 操作时只会记录需要这样的操作，并不会去执行，需要等到有 Actions 操作的时候才会真正启动计算过程进行计算。 2. 操作(Actions) (如：count, collect, save 等)，Actions 操作会返回结果或把 RDD 数据写到存储系统中。Actions

0 码力 | 3 页 | 172.14 KB | 1 年前
3
大数据集成与Hadoop - IBM

选择并行RDBMS、Hadoop和可扩展的ETL网格来运行大数据集成工作负载。但无论选择哪种方法，信息基础架构都必须满足一个常见的要求：全面支持大规模可扩展处理。某些数据集成操作在RDBMS引擎内外的运行效率较高。同样，并非所有数据集成操作均适用于Hadoop环境。设计精妙的架构必须足够灵活，可以充分利用系统中每个环境的优势（参见图3）。在ETL网格中运行在数据库中运行在Hadoop中运行可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码：手动编码费用昂贵，而且无法有效适应快速频繁的调整。另外，手动编码不支持自动收集对数据治理至关重要的设计和操作元数据。 3. 不要为RDBMS、Hadoop和ETL网格创建单独的集成开发环境：这种做法没有任何实际意义，而且支持费用非常昂贵。您应该能够构建一次作业，然后即可在三个环境中的任意一个环境内运行它。平台由以下两个主要组件构成：分布式容错文件系统（称为Hadoop Distributed File System (HDFS)）和并行处理框架（称为MapReduce）。 HDFS平台十分适合处理大型顺序操作，其中的数据读取“切片”通常为64MB或128MB。通常情况下，除非应用程序加载数据来管理相关任务，否则不会对HDFS文件进行分区或排序。即使应用程序可以对生成的数据切片进行分区和排序，

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 概述

MapReduce 中包含的编程逻辑，它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件，它能通过共享层次名称空间的数据寄存器(称为 znode)，使得分布式进程相互协调工作。每个 znode 都由一个路径来标识，路径元素由斜杠(/)分隔。 Google 这样的商业公司可使用 Hadoop 来操作、管理其数据存储并从中产生出有意义的结果。通常用于商业分析的传统工具并不旨在处理或分析超大规模数据集，但 Hadoop 是一个适用于这些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是 Hadoop 的基础，因为它包含主要服务和基本进程，例如对底层操作系统及其文件系统的抽象。Hadoop Hadoop 的大门。应用* 源 *请向供应商确认。资源可能会有所不同。 HADOOP 数据访问 YARN 数据管理开发和数据工具* 数据系统* 治理与集成安全操作操作工具* 基础设施* 图 1-4 HDP 被视为一个生态系统，因为它创造了一个数据社区，将第 1 章 Hadoop 概述 11 Hadoop 和其他工具汇集在一起。

0 码力 | 17 页 | 583.90 KB | 1 年前
3
Hadoop开发指南

Hadoop开发指南开发指南注解：本例中所运⾏脚本需在CentOS操作系统上，其他操作系统请修改脚本后再尝试执⾏。 1. 在在UHost上安装上安装Hadoop客户端客户端出于安全性考虑，⼀般建议⽤⼾在⾮UHadoop集群机器上安装客⼾端进⾏任务提交与相关操作 1.1 控制台安装控制台安装可通过控制台⼀键安装，参考：客⼾端安装。 1.2 ⾃⾏安装⾃⾏安装针对部分存 /etc/profile或者 source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤，适合海量⽂件的存储。 2.1 HDFS基础操作基础操作查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [-R] [] 上传⽂件 Usage: hadoop fs [generic [-crc] ... 更多请参考： hadoop fs -help 2.2 WebHDFS WebHDFS提供HDFS的RESTful接⼝，可通过此接⼝进⾏HDFS⽂件操作。使⽤WebHDFS时，客⼾端是先通过Namenode节点获取⽂件所在的Datanode地址，再通过与Datanode节点进⾏数据交互。 2.2.1 上传⽂件上传⽂件 UHadoop集群默

0 码力 | 12 页 | 135.94 KB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

server threads listen to requests from all nodes. NameNode 有一个工作线程池，用来处理不同 DataNode 的并发心跳以及客户端并发的元数据操作。对于大集群或者有大量客户端的集群来说，通常需要增大该参数。默认值是 10。 dfs.namenode.handler.count [atguigu@hadoop105 hadoop-3.1.3]$ sbin/stop-balancer.sh 注意：由于 HDFS 需要启动单独的 Rebalance Server 来执行 Rebalance 操作，所以尽量不要在 NameNode 上执行 start-balancer.sh，而是找一台比较空闲的机器。 4.4 黑名单退役服务器黑名单：表示在黑名单的主机 IP 地址不可以，用来存储数据。 ——————————————————————————————————————— 更多 Java –大数据 –前端 –python 人工智能资料下载，可百度访问：尚硅谷官网 1）纠删码操作相关的命令 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs ec Usage: bin/hdfs ec [COMMAND] [-listPolicies]

0 码力 | 41 页 | 2.32 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

icmp_seq=2 ttl=128 time=7.72 ms （2）安装 epel-release 注：Extra Packages for Enterprise Linux 是为“红帽系”的操作系统提供额外的软件包，适用于 RHEL、CentOS 和 Scientific Linux。相当于是一个软件仓库，大多数 rpm 包在官方 repository 中是找不到的） [root@hadoop100 [root@hadoop100 ~]# yum install -y epel-release （3）注意：如果 Linux 安装的是最小系统版，还需要安装如下工具；如果安装的是 Linux 桌面标准版，不需要执行如下操作 ➢ net-tool：工具包集合，包含 ifconfig 等命令 [root@hadoop100 ~]# yum install -y net-tools ➢ vim：编辑器 hadoop108 4）重启克隆机 hadoop102 [root@hadoop100 ~]# reboot 5）修改 windows 的主机映射文件（hosts 文件）（1）如果操作系统是 window7，可以直接修改（a）进入 C:\Windows\System32\drivers\etc 路径（b）打开 hosts 文件并添加如下内容，然后保存 192

0 码力 | 35 页 | 1.70 MB | 1 年前
3
大数据时代的Intel之Hadoop

P： //www.intel.com/technology/iamt。英特尔® 架构上的 64 位计算要求计算机系统采用支持英特尔® 64 架构的处理器、芯片组、基本输入输出系统（BIOS）、操作系统、设备驱劢程序和应用。实际性能会根据您使用的具体软硬件配置的丌同而有所差异。如欲了解更多信息£¬请不您的系统厂商联系。没有仸何计算机系统能够在所有情冴下提供绝对的安全性。英特尔® 可信执 com/technology/security/。 †英特尔® 超线程（HT）技术要求计算机系统具备支持英特尔超线程（HT）技术的英特尔® 奔腾® 4 处理器、支持超线程（HT）技术的芯片组、基本输入输出系统、BIOS 和操作系统。实际性能会根据您所使用的具体软硬件配置的丌同而有所差异。有关详细信息，包括哪些处理器支持英特尔 HT 技术，请访问 www.intel.com/products/ht/hyperthreading_more 处理器、基本输入输出系统、BIOS、虚拟机监视器、VMM、以及用亍某些应用的特定平台软件、功能、性能戒其它优势会根据软硬件配置的丌同而有所差异，可能需要对 BIOS 迚行更新。相关应用软件可能无法不所有的操作系统兼容。请咨询您的应用厂商以了解具体信息。 *文中涉及的其它名称及商标属亍各自所有者资产。英特尔所列的厂商仅为方便英特尔客户。但英特尔对亍这些设备的质量、可靠性、功能戒兼容性丌提供仸何担

0 码力 | 36 页 | 2.50 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

以上规模的存储及计算需求，最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的数据规模需求；数据分布式存储，多副本冗余，数据存储对外仅开放表的操作接口，不提供文件系统访问接口自研数据存储结构，表数据列式存储，默认高度压缩，后 D k n e P y l w s o u ) ( ( f I w s A n t S B M / ini，添加 mapreduce.job.queuename=root.hadoop.plarch 6.4.3 方案 B：使用 Dataworks 服务迁移 Meta 和数据 6.4.3.1 操作步骤 1. 客户需要预先开通 MaxCompute 服务，并创建好 project。 2. 安装 MMA Agent 并使用 meta-carrier 获取 hive metadata，参见 meta-carrier 工具获取 Hive Meta 数据的时候，可以通过参数指定需要迁移的 database 名称和表名，生成的 meta 目录就会只有这一个 table 的 json 文件。其余迁移操作步骤与 7.1.4.1 相同。 8.1.6 批量迁移 Oozie 工作流和节点任务 8.1.6.1 Oozie 工作流和节点任务迁移 1. 参见 6.4.2，您需要在 6.4.2.2 中配置

0 码力 | 59 页 | 4.33 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File System in Userspace）项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂载 HDFS 中，我们利用 Oracle Database 11g 实现本文所述的数据库内的 mapreduce。通常情况下，Oracle Database 11g 中的并行执行框架足以满足针对外部表大多数的并行操作。在有些情况下（例如，如果 FUSE 不可用），外部表方法可能不适用。Oracle 表函数提供了从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来

0 码力 | 21 页 | 1.03 MB | 1 年前
3

共 10 条前往

页

分类

语言

格式

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

Spark 简介以及与 Hadoop 的对比

大数据集成与Hadoop - IBM

Hadoop 概述

Hadoop开发指南

尚硅谷大数据技术之Hadoop（生产调优手册）

尚硅谷大数据技术之Hadoop（入门）

大数据时代的Intel之Hadoop

Hadoop 迁移到阿里云MaxCompute 技术方案

通过Oracle 并行处理集成 Hadoop 数据