积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(11)Hadoop(11)

语言

全部中文(简体)(10)西班牙语(1)

格式

全部PDF文档 PDF(11)
 
本次搜索耗时 0.026 秒,为您找到相关结果约 11 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 大数据集成与Hadoop - IBM

    大数据措施的经济性和活力,这样不仅有助于削减成本、增加 收益,而且还能树立竞争优势。Hadoop是一个开源软件项目, 支持在多个商业服务器群集间分散处理和存储大型数据集, 并可根据需求变化从单一服务器扩展到数以千计的服务器。主 要的Hadoop组件包括Hadoop Distributed File System (用于存储大型文件)和Hadoop分布式并行处理框架(称为 MapReduce)。 解决方案,该解决方案不仅可实现大规模扩展,还能提供支持 Hadoop项目所需的基础架构、功能、流程和行为准则。 “在很大程度上,80%的大数据项目开发 精力用于数据集成,只有20%的精力投入 到数据分析中。” —Intel Corporation,“使用 Apache Hadoop 抽取、转换和加载大数据”1 有效的大数据集成解决方案可实现简便性、高速度、可扩展 性、功能和治理,从Hadoop沼泽中生成可使用的数据。没有 采用计划,必须遵循最佳实践方法,充分考虑各种新兴技术、可 扩展性需求以及当前的资源和技能水平。面临的挑战:创建最佳 的大数据集成方法和架构,同时避免各种实施缺陷。 海量数据可扩展性:总体要求 如果您的大数据集成解决方案无法支持海量数据可扩展性, 那么很可能无法达到预期的效果。为发挥大数据措施的整体 业务价值,对于大部分Hadoop项目的大数据集成而言,海 量数据可扩展性是必不可少的。海量数据可扩展性意味着对 处理的数据
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    对象 供后 续使 用。如 Hive、 MapReduce、Spark 等。 Alibaba Cloud MaxCompute 解决方案 8  实时消息采集:用于实时数据采集,可扩展、高吞吐、可靠的消息服务。如 Kafka。  流处理:对实时数据进行低延迟流式计算的服务。如 Flink、Spark Streaming、Storm 等。  机器学习:满足机器学习工作负载的服务。如当前流行的 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS 100% 支持,同时语法高度兼容 Hive,有 Hive 背 客户端工具、Dataworks 提交作业 交互式分析 MaxCompute Lightning MaxCompute 产品的交互式查询服务,特性如下: 兼容 PostgreSQL:兼容 PostgreSQL 协议的 JDBC/ODBC 接口,所有支持 PostgreSQL 数据库的工 具或应用使用默认驱动都可以轻松地连接到 MaxCompute 项目。支持主流 BI 及 SQL 客户端工具的 连接访问,如
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    Hadoop Hadoop 是一种用于管理大数据的基本工具。这种工具满足了企 业在大型数据库(在 Hadoop 中亦称为数据湖)管理方面日益增长的 需求。当涉及数据时,企业中最大的需求便是可扩展能力。科技和 商业促使各种组织收集越来越多的数据,而这也增加了高效管理这 些数据的需求。本章探讨 Hadoop Stack,以及所有可与 Hadoop 一 起使用的相关组件。 在构建 Hadoop 分布式文件系统,或者说 HDFS,则是 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数 据,你可以使用 MapReduce 中包含的编程逻辑,它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名 问,而非低延迟的数据访问。运行在 HDFS 上的应用程序有着大型 数据集。在 HDFS 中一个典型的文件大小可以达到数百 GB 或更大, 所以 HDFS 显然支持大文件。它提供高效集成数据带宽,并且单个 群集可以扩展至数百节点。 Hadoop 是一个单一功能的分布式系统,为了并行读取数据集并 提供更高的吞吐量,它与群集中的机器进行直接交互。可将 Hadoop 想象为一个动力车间,它让单个 CPU 运行在群集中大量低成本的机
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    Hadoop发展历史 6)2003-2004年,Google公开了部分GFS和MapReduce思想的细节,以此为基础Doug Cutting等人用 了2年业余时间实现了DFS和MapReduce机制,使Nutch性能飙升。 7)2005 年Hadoop 作为 Lucene的子项目 Nutch的一部分正式引入Apache基金会。 8)2006 年 3 月份,Map-Reduce和Nutch Distributed 优势(4 高) Hadoop优势(4高) 1)高可靠性:Hadoop底层维护多个数据副本,所以即使Hadoop某个计算元 素或存储出现故障,也不会导致数据的丢失。 2)高扩展性:在集群间分配任务数据,可方便的扩展数以千计的节点。 Hadoop102 Hadoop103 Hadoop104 Hadoop105 Hadoop106 双11、618可以动 态增加服务器 Hadoop102 Hadoop103
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    特性,兼容适配长城、联想、浪潮、华为、曙光等国内主流厂商的服务器整机产 品,以及达梦、金仓、神通等主要国产数据库和中创、金蝶、东方通等国产中间 件,满足虚拟化、云计算和大数据时代,服务器业务对操作系统在性能、安全性 及可扩展性等方面的需求,是一款具有高安全、高可用、高可靠、高性能的自主 可控服务器操作系统。 1.2 环境概述 服务器型号 长城信安擎天 DF720 服务器 CPU 类型 飞腾 2000+处理器 节点的 Container 中,具体做事情的 Task,同样也运行与某一个 Slave 节点的 Container 中。RM, NM,AM 乃至普通的 Container 之间的通信,都是用 RPC 机制。 2 Hadoop 软件适配 2.1 解压 hadoop 软件 $ tar -xvf hadoop-2.7.7.tar.gz -C /usr/local/ $ cd /usr/local/hadoop-2
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 (QC)。请注意,QC 表函数调用同时也承担 着处理角色。 在第 2 步中,该表函数调用 (QC) 使用 dbms_scheduler(图 3 中的作业控制器)启动一个异步 步写入一个队列。在本文的示例中,我们选择了一个在集群 范围内可用的队列。现在,我们只是单纯地将任何输出直接写入到队列里。您可以通过批量 处理输出并将其移入队列来提高性能。显然,您也可以选择管道和关系表等其他各种机制。 随后的第 6 步是出队过程,这是通过数据库中的表函数并行调用来实现的。这些并行调用处 理得到的数据将会提供给查询请求来使用。表函数同时处理Oracle数据库的数据和来自队列 中的数据
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    题时采用的方案。为了保证 RDD 中数据的鲁棒性,RDD 数据集通过所谓的血统关系(Lineage) 记住了它是如何从其它 RDD 中演变过来的。相比其它系统的细颗粒度的内存数据更新级别的 备份或者 LOG 机制,RDD 的 Lineage 记录的是粗颗粒度的特定数据转换(Transformation) 操作(filter, map, join etc.)行为。当这个 RDD 的部分分区数据丢失时,它可以通过
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    MapReduce YARN Timeline Service v.2 • 扩展性 分布式读写 读写分离 HBase存储 YARN Timeline Service v.2 • 可用性 流(flow) 聚合(aggregation) YARN Federation • YARN-2915 允许YARN的集群扩展到一万个戒更多个节点 YARN的集群的集群对用户来说是一个整体的集群 劢态资源配置
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    int(20*math.log(3)) 21 >>> quit() 1.3 开启回收站配置 开启回收站功能,可以将删除的文件在不超时的情况下,恢复原数据,起到防止误删除、 备份等作用。 1)回收站工作机制 尚硅谷大数据技术之 Hadoop(生产调优手册) ——————————————————————————————————————— 更多 Java –大数据
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 Hadoop开发指南

    ARY_PATH 让环境⽣效 source /etc/profile或者 source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤,适合海量⽂件的存储。 2.1 HDFS基础操作 基础操作 查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [-R] []
    0 码力 | 12 页 | 135.94 KB | 1 年前
    3
共 11 条
  • 1
  • 2
前往
页
相关搜索词
大数集成HadoopIBM迁移阿里MaxCompute技术方案概述硅谷入门银河麒麟服务务器服务器操作系统操作系统V4软件适配手册通过Oracle并行处理并行处理数据Spark简介以及对比3.0未来生产调优开发指南
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩