积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(11)Hadoop(11)

语言

全部中文(简体)(10)西班牙语(1)

格式

全部PDF文档 PDF(11)
 
本次搜索耗时 0.016 秒,为您找到相关结果约 11 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 大数据集成与Hadoop - IBM

    决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 (ROI)。 大数据集成对于Hadoop措施的重要性 Hadoop的迅速崛起推动企业在如何抽取、管理、转换、存储和 分析大数据方面实现了范式转变。无论是要更深入的分析,还是 希望获得更出色的洞察、新产品、新服务以及更高的服务水平,都 可以通过这项技术一一实现,从而大幅降低成本并创造新的 收入。 高性能处理,而是为了实现细粒度的容错。这种差异可能会 使整体性能和有效性降低一个数量级乃至更多。 Hadoop Yet Another Resource Negotiator(YARN) 纳入了MapReduce的资源管理功能,并将它们内置其 中,这样需要在Hadoop群集间动态执行的其他应用即可 使用它们。结果是,这种方法可将大规模可扩展数据集成 引擎作为本机 Hadoop应用程序来实现,而且不会影响 Ma 据分区执行相同的应用程 序逻辑)。 使用软件数据流来实施 项目 软件数据流通过简化在一 个或多个节点实施和执行 数据管道和数据分区的过 程,从而充分利用非共享 架构。软件数据流还可以 将构建和优化多位用户运 行的并行应用程序的复杂 问题隐藏起来。 利用数据分区实现线性 数据可扩展性 大数据集分散在多个独立 节点间,单个作业对所有 分区数据执行相同的应用 程序逻辑。 形成设计隔离的环境 设计一个数据处理作业,
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    与其他系统的集成 ● 数据集成与 Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和 商业促使各种组织收集越来越多的数据,而这也增加了高效管理这 些数据的需求。本章探讨 Hadoop Stack,以及所有可与 Hadoop 一 HDFS,则是 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数 据,你可以使用 MapReduce 中包含的编程逻辑,它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名 称空间的数据寄存器(称为 znode),使得分布式进程相互协调工作。 每个 znode 都由一个路径来标识,路径元素由斜杠(/)分隔。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    发行版,完全开源,比 Apache Hadoop 在兼容性,安 全性,稳定性上有所增强。Cloudera 的标价为每年每个节点 10000 美元。 (4)Cloudera Manager 是集群的软件分发及管理监控平台,可以在几个小时内部署好一 个 Hadoop 集群,并对集群的节点及服务进行实时监控。 3)Hortonworks Hadoop 官网地址:https://hortonworks. (3)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开 源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统。 (4)2018 年 Hortonworks 目前已经被 Cloudera 公司收购。 尚硅谷大数据技术之 Hadoop(入门) NameNode元数据备份。 1.5.2 YARN 架构概述 Yet Another Resource Negotiator 简称 YARN ,另一种资源协调者,是 Hadoop 的资源管理器。 尚硅谷大数据技术之 Hadoop(入门) ————————————————————————————— 更多 Java –大数据 –前端
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    英特尔迚行赔偿,保 证因使用此类关键业务应用而造成的产品责仸、人员伤害戒死亡索赔中直接戒间接发生的所有索赔成本、损坏、费用以及合理的律师费丌会对英特尔及其子公司、分包商和分支机构,以及 相关的董事、管理人员和员工造成损害,无论英特尔及其分包商在英特尔产品戒其仸何部件的设计、制造戒警示环节是否出现疏忽大意的情冴。 英特尔可以随时在丌发布声明的情冴下修改规格和产品说明。设计者丌应信赖仸何英特产品所 Inside、英特尔凌劢、英特尔 Flexpipe 和 Thunderbolt 是英特尔公司在美国和/戒其他国家戒地区的商标。 英特尔® 主劢管理技术要求平台采用支持英特尔主劢管理技术的芯片组、网络硬件和软件。系统必须接通电源幵建立网络连接。就笔记本电脑而言,英特尔主劢管理技术可能在基亍主机操 作系统的虚拟与用网(VPN)上,戒者在无线连接、使用电池电源、睡眠、休眠戒关机时无法使用戒是某些功能受到限制。如欲了解更多信息,请访问:httP: 持续实时产生数据, 年增长率超过60% 主要为结构化数据 半结构化,非结构化, 多维数据 ―大数据‖ 挃数据集的大小超过了现有典型的数据库软件和工具的处理能力。不此同时,及时捕捉、 存储、聚合、管理这些大数据以及对数据的深度分析的新技术和新能力,正在快速增长,就像预 测计算芯片增长速度的摩尔定律一样。 — McKinsey Global Institute 统计和报表 价值
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    2 阿里云大数据与开源生态对比 2.1 Hadoop 及开源生态与阿里云大数据生态对比 2.1.1 主流大数据体系架构 Hadoop 及开源生态由一系列的开源组件共同组成,很多用户基于 Hadoop 及开源生态组件构 建企业数据仓库/数据湖、机器学习、实时分析、BI 报表等大数据应用。我们常见的大数据架构 的逻辑组件关系如下图所示: 这些逻辑组件包括: 2.2 MaxCompute 特性介绍 MaxCompute 是阿里云提供高效能、低成本,完全托管的“EB 级”大数据计算服务,利用 MaxCompute 可以构建敏捷、高效的企业数据管理平台。 Alibaba Cloud MaxCompute 解决方案 11 2.2.1 MaxComptue 的逻辑架构 2.2.2 MaxCompute 产品特性 产品特性 MaxCompute 提供了云原生、多租户的服务架构,在底层大规模计算、存储资源之上预先构建 好了 MaxCompute 计算服务、服务接口,提供了配套的安全管控手段和开发工具管理工具,产 品开箱即用。 功能 MaxCompute 产品组件 特性介绍 数据存储 MaxCompute 表 (基于盘古分布式存储) MaxCompute 支持大规模计算存储,适用于 TB
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    .Z1 内核版本 4.4.131 hadoop 版本 2.7.7 1.3 Hadoop 软件简介 Hadoop 是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在 不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高 速运算和存储。 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 DataNode。 NameNode 作为 master 服务,它负责管理文件系统的命名空间和客户端对文 件的访问。NameNode 会保存文件系统的具体信息,包括文件信息、文件被分割 成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个 集群来说,HDFS 通过 NameNode 对用户提供了一个单一的命名空间。 DataNode 作为 slave slave 服务,在集群中可以存在多个。通常每一个 DataNode 都对应于一个物理节点。DataNode 负责管理节点上它们拥有的存储,它将存储划 分为多个 block 块,管理 block 块信息,同时周期性的将其所有的 block 块信息发 送给 NameNode。 1.5 MapReduce 介绍 MapReduce 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Hadoop 3.0以及未来 刘 轶 自我简介 • Apache Hadoop的committer和顷目管理委员会成员。 • ebay的Paid IM(互联网市场)部门架构师,领导ebay产品广告、互 联网市场数据和实验平台的架构设计。负责领导使用Hadoop、 Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 v.2 • 可用性 流(flow) 聚合(aggregation) YARN Federation • YARN-2915 允许YARN的集群扩展到一万个戒更多个节点 YARN的集群的集群对用户来说是一个整体的集群 劢态资源配置 • YARN-291 允许劢态的改变NM的资源配置 容器资源的劢态调整 • YARN-1197 允许运行时劢态的调整分配给容器的资源 资源隔离 •
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    decommission in progress(退役中),说明数据 节点正在复制块到其他节点 5)等待退役节点状态为 decommissioned(所有块已经复制完成),停止该节点及节点资源 管理器。注意:如果副本数是 3,服役的节点小于等于 3,是不能退役成功的,需要修改 副本数后才能退役 [atguigu@hadoop105 hadoop-3.1.3]$ hdfs --daemon 9)mapreduce.task.timeout如果一个Task在一定时间内没有任何进入, 即不会读取新的数据,也没有输出数据,则认为该Task处于Block状态, 可能是卡住了,也许永远会卡住,为了防止因为用户程序永远Block住 不退出,则强制设置了一个该超时时间(单位毫秒),默认是600000 (10分钟)。如果你的程序对每条输入数据的处理时间过长,建议将 该参数调大。 8)mapreduce.job
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    4 容错 在 RDD 计算,通过 checkpint 进行容错,做 checkpoint 有两种方式,一个是 checkpoint data,一个是 logging the updates。用户可以控制采用哪种方式来实现容错,默认是 logging the updates 方式,通过记录跟踪所有生成 RDD 的转换(transformations)也就是记录每 个 RDD 的 lin reduce, lookup, save 等多种 actions 操作。 2. 这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 2.3 容错性 在RDD计算,通过checkpoint进行容错,做checkpoint有两种方式,一个是checkpoint data,一个是 logging the updates。用户可以控制采用哪种方式来实现容错,默认是 logging the updates 方式,通过记录跟踪所有生成 RDD 的转换(transformations)也就是记录每 个 RDD 的 lin
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的 明细信息,以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据 存储在数据库之外,但一些客户仍然希望将其与数据库中的数据整合在一起以提 取对业务用户有价值的信息。 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE(File System in Userspace)项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂 载 HDFS 存储,并将其作为常规文件系统处理。通过使用一个此类驱动程序,并在数据库实 例上挂载 HDFS(如果是 RAC 数据库,则在其所有实例上挂载 HDFS),即可使用外部表基 础架构轻松访问 步是出队过程,这是通过数据库中的表函数并行调用来实现的。这些并行调用处 理得到的数据将会提供给查询请求来使用。表函数同时处理Oracle数据库的数据和来自队列 中的数据,并将来自两个来源的数据整合为单一结果集提供给最终用户。 图 4. 监控进程 Hadoop的进程 (mapper) 启动之后,作业监控器进程将监视启动程序脚本。一旦mapper 完成 Hadoop 集群中数据的处理之后,bash
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
共 11 条
  • 1
  • 2
前往
页
相关搜索词
大数集成HadoopIBM概述硅谷技术入门时代Intel迁移阿里MaxCompute方案银河麒麟服务务器服务器操作系统操作系统V4软件适配手册3.0以及未来生产调优Spark简介对比通过Oracle并行处理并行处理数据
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩