查询构建器 - IT文库_程序员IT互联网编程电子书和文档免费下载，助您码力十足！

首页文库资料文章资讯上传文档发布文章登录账户

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

银河麒麟服务器操作系统 V4 Hadoop 软件适配手册天津麒麟信息技术有限公司 2019 年 5 月银河麒麟服务器操作系统 V4 hadoop 软件适配手册 I 目录目录 ............................................................................. 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 2 1 概述 1.1 系统概述银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电力系统等国家关键行业的服务器应用领域，突出高安全性、高可用性、高效数据处理、虚拟化等关键技术优势，针对关键业务构建的丰富高效、安全可靠的功能特性，兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产品，以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间件，满足虚拟化、云计算和大数据时代，服务器业务对操作系统在性能、安全性及可扩展性等方面的需求，是一款具有高安全、高可用、高可靠、高性能的自主可控服务器操作系统。 1.2 环境概述服务器型号长城信安擎天 DF720 服务器 CPU 类型飞腾 2000+处理器操作系统版本 Kylin-4.0.2-server-sp2-2000-19050910

0 码力 | 8 页 | 313.35 KB | 1 年前
3
大数据集成与Hadoop - IBM

Hadoop技术通过支持新的流程和架构，不断改进大数据措施的经济性和活力，这样不仅有助于削减成本、增加收益，而且还能树立竞争优势。Hadoop是一个开源软件项目，支持在多个商业服务器群集间分散处理和存储大型数据集，并可根据需求变化从单一服务器扩展到数以千计的服务器。主要的Hadoop组件包括Hadoop Distributed File System （用于存储大型文件）和Hadoop分布式并行处理框架（称为那么很可能无法达到预期的效果。为发挥大数据措施的整体业务价值，对于大部分Hadoop项目的大数据集成而言，海量数据可扩展性是必不可少的。海量数据可扩展性意味着对处理的数据量、处理吞吐量以及使用的处理器和处理节点数量全无限制。只需添加更多的硬件，即可处理更多的数据，实现更高的处理吞吐量。添加硬件资源的同时，无需修改即可运行相同的应用程序并且性能也会随之提高（参见图1）。关键成功因素：避免炒作，分辨是非连续单处理器 SMP系统 MPP群集系统或GRID 4 路并行 64 路并行 CPU CPU CPU CPU CPU 内存共享内存磁盘磁盘关键成功因素：大数据集成平台必须支持全部三个维度的可扩展性 • 线性数据可扩展性：硬件和软件系统通过线性增加硬件资源来线性提高处理吞吐量。例如，如果在50个处理器上运行4小时可以处理200GB数据，在100个处理器上运行4小

0 码力 | 16 页 | 1.23 MB | 1 年前
3
Hadoop 迁移到阿里云MaxCompute 技术方案

1 概要 Hadoop 在企业构建第一代大数据平台中成为主流的技术框架，但是随着企业信息化的高速发展，在数字化、智能化的转型过程中，Hadoop 越来越复杂的技术架构和运维成本、平台的稳定性和安全性、资源的弹性伸缩能力都遇到了瓶颈，严重阻碍了客户数据业务的发展。随着云计算技术的发展和普及，越来越多的企业客户选择数据上云，在云上构建数据仓库。以云数仓、云计算为核心的企业服级”大数据计算服务，利用 MaxCompute 可以构建敏捷、高效的企业数据管理平台。 Alibaba Cloud MaxCompute 解决方案 11 2.2.1 MaxComptue 的逻辑架构 2.2.2 MaxCompute 产品特性 MaxCompute 提供了云原生、多租户的服务架构，在底层大规模计算、存储资源之上预先构建好了 MaxCompute 计算 Hive，有 Hive 背景开发者直接上手，特别在大数据规模下性能强大。 * 完全自主开发的 compiler，语言功能开发更灵活，迭代快，语法语义检查更加灵活高效 * 基于代价的优化器，更智能，更强大，更适合复杂的查询 * 基于 LLVM 的代码生成，让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的

0 码力 | 59 页 | 4.33 MB | 1 年前
3
Hadoop 概述

需求。当涉及数据时，企业中最大的需求便是可扩展能力。科技和商业促使各种组织收集越来越多的数据，而这也增加了高效管理这些数据的需求。本章探讨 Hadoop Stack，以及所有可与 Hadoop 一起使用的相关组件。在构建 Hadoop Stack 的过程中，每个组件都在平台中扮演着重要角色。软件栈始于 Hadoop Common 中所包含的基础组件。Hadoop 1 第章 Hadoop MapReduce 中包含的编程逻辑，它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理，可考虑将 Hadoop YARN 加入到软件栈中，它是面向大数据应用程序的分布式操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件，它能通过共享层次名称空间的数据寄存器(称为 znode)，使得分布式进程相互协调工作。每个 znode 都由一个路径来标识，路径元素由斜杠(/)分隔。提供的大型数据存储和多种数据类型。第 1 章 Hadoop 概述 3 例如，让我们考虑类似 Google、Bing 或者 Twitter 这样的大型数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大型数据存储。类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数据存储并从中产

0 码力 | 17 页 | 583.90 KB | 1 年前
3
大数据时代的Intel之Hadoop

位计算要求计算机系统采用支持英特尔® 64 架构的处理器、芯片组、基本输入输出系统（BIOS）、操作系统、设备驱劢程序和应用。实际性能会根据您使用的具体软硬件配置的丌同而有所差异。如欲了解更多信息£¬请不您的系统厂商联系。没有仸何计算机系统能够在所有情冴下提供绝对的安全性。英特尔® 可信执行技术是由英特尔开发的一项安全技术，要求计算机系统具备英特尔® 虚拟化技术、支持英特尔可信执行技术的处理器、芯片组、基本输入输出系块，以及英特尔戒其它兼容的虚拟机监视器。此外，英特尔可信执行技术要求系统包含可信计算组定义的 TPMv1.2 以及用亍某些应用的特定软件。如欲了解更多信息，请访问：httP：//www.intel.com/technology/security/。 †英特尔® 超线程（HT）技术要求计算机系统具备支持英特尔超线程（HT）技术的英特尔® 奔腾® 4 处理器、支持超线程（HT）技术的芯片组、基本输入输出系统、BIOS 际性能会根据您所使用的具体软硬件配置的丌同而有所差异。有关详细信息，包括哪些处理器支持英特尔 HT 技术，请访问 www.intel.com/products/ht/hyperthreading_more.htm。英特尔® 虚拟化技术要求计算机系统具备支持英特尔虚拟化技术的英特尔® 处理器、基本输入输出系统、BIOS、虚拟机监视器、VMM、以及用亍某些应用的特定平台软件、功能、性能戒其它优势会根据软硬件配置的丌同而有所差异，可能需要对

0 码力 | 36 页 | 2.50 MB | 1 年前
3
通过Oracle 并行处理集成 Hadoop 数据

要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据，最简单的方法莫过于使用外部表。请参阅这里了解外部表。外部表以表的形式展示存储在文件系统中的数据，并且可在 SQL 查询中完全透明地使用。因此，可以考虑用外部表从 Oracle 数据库中直接访问 HDFS（Hadoop 文件系统）中存储的数据。遗憾的是，常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE（File 讲，我们用一个表函数来实现，这个表函数使用 DBMS_SCHEDULER 框架异步调用外部shell 脚本，然后由这个shell脚本提交一个Hadoop Map-Reduce 作业。该表函数与映射器 (mapper) 之间使用 Oracle 高级队列特性进行通信。Hadoop mapper 将数据排入一个公共队列，而表函数则从该队列中取出数据。由于该表函数能够并行运行，因此使用额外的逻辑来确保仅有一个服并行处理集成 Hadoop 数据图 2. 利用表函数进行并行处理由于表函数可以并行运行，Hadoop 流作业也可以不同程度地并行运行，并且后者不受 Oracle 查询协调器的控制，这种情况下，队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据利用表函数的示例

0 码力 | 21 页 | 1.03 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（入门）

2 Hadoop 发展历史（了解） Hadoop发展历史 1）Hadoop创始人Doug Cutting，为了实现与Google类似的全文搜索功能，他在Lucene框架基础上进行优化升级，查询引擎和索引引擎。 Hadoop创始人Doug Cutting 2）2001年年底Lucene成为Apache基金会的一个子项目。 3）对于海量数据的场景，Lucene框架面对与Google同样双11、618可以动态增加服务器 Hadoop102 Hadoop103 Hadoop104 Hadoop优势（4高） 3）高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。 4）高容错性：能够自动将失败的任务重新分配。 Hadoop102 Hadoop103 Hadoop104 Hadoop101 单台服务器工作计算任务集群工作 meNode元数据备份。 1.5.2 YARN 架构概述 Yet Another Resource Negotiator 简称 YARN ，另一种资源协调者，是 Hadoop 的资源管理器。尚硅谷大数据技术之 Hadoop（入门） ————————————————————————————— 更多 Java –大数据 –前端

0 码力 | 35 页 | 1.70 MB | 1 年前
3
尚硅谷大数据技术之Hadoop（生产调优手册）

每个文件块大概占用 150byte，一台服务器 128G 内存为例，能存储多少文件块呢？ 128 * 1024 * 1024 * 1024 / 150Byte ≈ 9.1 亿 G MB KB Byte 2）Hadoop2.x 系列，配置 NameNode 内存 NameNode 内存默认 2000m，如果服务器内存 4G，NameNode 内存可以配置 3g。在就在本地，所以该副本不参与测试一共参与测试的文件：10 个文件 * 2 个副本 = 20 个压测后的速度：1.61 实测速度：1.61M/s * 20 个文件 ≈ 32M/s 三台服务器的带宽：12.5 + 12.5 + 12.5 ≈ 30m/s 所有网络资源都已经用满。如果实测速度远远小于网络，并且实测速度不能满足工作需求，可以考虑采用固态硬盘或者增加磁盘个数。 -mapreduce-client- jobclient-3.1.3-tests.jar TestDFSIO -clean 3）测试结果分析：为什么读取文件速度大于网络带宽？由于目前只有三台服务器，且有三个副本，数据读取就近原则，相当于都是读取的本地磁盘数据，没有走网络。第 3 章 HDFS—多目录 3.1 NameNode 多目录配置 1）NameNode 的本地目录

0 码力 | 41 页 | 2.32 MB | 1 年前
3
Hadoop开发指南

source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤，适合海量⽂件的存储。 2.1 HDFS基础操作基础操作查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [-R] [] 上传⽂件 Usage: hadoop fs [generic

0 码力 | 12 页 | 135.94 KB | 1 年前
3
MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖

▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统） ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ 应用演示 – 汽车传感器数据分析 3 大数据概述大数据的”4V”特征： ▪ Volumes - 数据规模，数据规模巨大互联网、社交网络的普及，全社会的数字化转型，数据规模向PB级发展 ▪ Variety - 数据种类 Decision Tree (fitctree) – Linear Classification with Random Kernel Expansion (fitckernel) 16 应用演示 – 汽车传感器数据分析 ▪ 1300 trip log files ▪ 21 unique vehicles ▪ Approx 39 unique channels ▪ Data collected over

0 码力 | 17 页 | 1.64 MB | 1 年前
3

共 11 条前往

页

分类

语言

格式

银河麒麟服务器操作系统V4 Hadoop 软件适配手册

大数据集成与Hadoop - IBM

Hadoop 迁移到阿里云MaxCompute 技术方案

Hadoop 概述

大数据时代的Intel之Hadoop

通过Oracle 并行处理集成 Hadoop 数据

尚硅谷大数据技术之Hadoop（入门）

尚硅谷大数据技术之Hadoop（生产调优手册）

Hadoop开发指南

MATLAB与Spark/Hadoop相集成：实现大数据的处理和价值挖