积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(10)Hadoop(10)

语言

全部中文(简体)(9)西班牙语(1)

格式

全部PDF文档 PDF(10)
 
本次搜索耗时 0.022 秒,为您找到相关结果约 10 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 概述

    Hadoop 大数据解决方案 2 Common 是常见工具和库的集合,用于支持其他 Hadoop 模块。和 其他软件栈一样,这些支持文件是一款成功实现的必要条件。而众 所周知的文件系统,Hadoop 分布式文件系统,或者说 HDFS,则是 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数 据,你可以使用 MapReduce 中包含的编程逻辑,它提供了在 Hadoop 群 是一个适用于这 些商业模型的解决方案。 1.1.1 Hadoop 的组件 Hadoop Common 是 Hadoop 的基础,因为它包含主要服务和基 本进程,例如对底层操作系统及其文件系统的抽象。Hadoop Common 还包含必要的 Java 归档(Java Archive,JAR)文件和用于启 动 Hadoop 的脚本。Hadoop Common 包甚至提供了源代码和文档, Hadoop 之前,你需要 先熟悉此类环境。 1.1.2 Hadoop 分布式文件系统(HDFS) 在 Hadoop Common 安装完成后,是时候该研究 Hadoop Stack 的其余组件了。HDFS(Hadoop Distributed File System)提供一个分布 式文件系统,设计目标是能够运行在基础硬件组件之上。大多数企 业被其最小化的系统配置要求所吸引。此环境可以在虚拟机(Virtual
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    面向大数据应用,在计算、存储和网络方面提供更快更为 高效的架构级别的优化方案 • 持续投入大数据应用开发,促迚软件系统和服务的丌断优 化和创新 • 推迚终端设备和传感器的智能化,构建亏联、可管理的和 安全的分布式架构 软硬结合 Intel Hadoop商业发行版 优化的大数据处理软件栈 稳定的企业级hadoop发行版 利用硬件新技术迚行优化 HBase改迚和创新,为Hadoop提供实时数据处理能力 94.1 实时、分布式、高维数据库 Map/Reduce 1.0.3 分布式计算框架 HDFS 1.0.3 分布式文件系统 R 统计语言 Intel Hadoop Manager – 安装、配置、管理、监控、告警 英特尔Hadoop性能优化 测试配置  性能数据在8台英特尔至强服务器组成的小规模集群上测试得到  服务器配置:6核Intel E5 CPU 去除了MapReduce的overhead,大大减少了数据传输 • 性能有3X~10X的提升 HBase的性能优化 预分配region 启用压缩已减少HDFS数据量,可提高读性能 Region Server迚程配置大内存(>16G) 每个Region Server拥有的region数量<300 优化表结构设计,防止少数几个region成为瓶颈 • 一个简单的经验公式:每台region server纯写入时高负载应能
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    映射(仅作为对功能定位的映射,不代表对应组件可无缝迁移),以便读者对相关服务的迁移至 阿里云大数据产品服务有更好的理解。 组件分类 Hadoop 开源组件 阿里云产品/产品组件 数据存储 HDFS 文件系统 对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR HDFS 批处理 Hadoop MapReduce Hive Spark MaxCompute 模的存储及计算需求,最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的 数据规模需求; 数据分布式存储,多副本冗余,数据存储对外仅开放表的 操作接口,不提供文件系统访问接口 自研数据存储结构,表数据列式存储,默认高度压缩,后 D k n e P y l w s o u ) ( ( f I w s A n t S B M / ) g p L 存储格式 支持外表,将存储在 OSS 对象存储、OTS 表格存储的数 据映射为二维表 支持 Partition、Bucket 的分区、分桶存储 更底层不是 HDFS,是阿里自研的盘古文件系统,但可借 助 HDFS 理解对应的表之下文件的体系结构、任务并发 机制 使用时,存储与计算解耦,不需要仅仅为了存储扩大不必 要的计算资源 SQL MaxCompute SQL TPC-DS
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    单一应用程序(对每个数 据分区执行相同的应用程 序逻辑)。 使用软件数据流来实施 项目 软件数据流通过简化在一 个或多个节点实施和执行 数据管道和数据分区的过 程,从而充分利用非共享 架构。软件数据流还可以 将构建和优化多位用户运 行的并行应用程序的复杂 问题隐藏起来。 利用数据分区实现线性 数据可扩展性 大数据集分散在多个独立 节点间,单个作业对所有 分区数据执行相同的应用 程序逻辑。 形成设计隔离的环境 Information Server”中了解更多信 息:http://ibm.co/UX1RqB 6 大数据集成与 Hadoop 优化大数据集成工作负载:一种平衡的方法 由于几乎所有Hadoop大数据用例和场景都需要首先进行大数 据集成,所以企业必须确定如何优化整个企业的此类工作负载。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 实现低成本历史归档数据 缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 原则: 1. 将大数据集成处理推向数据,而不是将数据推向处理:指定 可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    6)如果数据不均衡,可以用命令实现集群的再平衡 [atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 第 5 章 HDFS—存储优化 注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量拿另外一套集群。提前准备 5 台 服务器的集群。 5.1 纠删码 5.1.1 纠删码原理 HDFS 默认情况下,一个文件有 3 (4)查看存储路径的数据单元和校验单元,并作破坏实验 5.2 异构存储(冷热数据分离) 异构存储主要解决,不同的数据,存储在不同类型的硬盘中,达到最佳性能的问题。 RAM_DISK:(内存镜像文件系统) SSD:(SSD固态硬盘) DISK:(普通磁盘,在HDFS中,如果没有主动声明数据目录存储类型默认都是DISK) ARCHIVE:(没有特指哪种存储介质,主要的指的是计算能力比较弱而存 [atguigu@hadoop102 hadoop-3.1.3]$ hdfs --daemon start namenode (3)向集群上传一个文件 6.2 集群安全模式&磁盘修复 1)安全模式:文件系统只接受读数据请求,而不接受删除、修改等变更请求 2)进入安全模式场景 ➢ NameNode 在加载镜像文件和编辑日志期间处于安全模式; ➢ NameNode 再接收 DataNode 注册时,处于安全模式
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS Journal Node Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算-存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN  YARN Timeline Service v.2  YARN YARN的Web页面的增强 • YARN-3368 Hadoop 3介绍 • Common • HDFS • YARN • MapReduce  Task层次的Native优化 MapReduce Task层次Native优化 • 对map output collector的Native实现,对于shuffle密集型的task能 带来30%的性能提升。 Hadoop 的未来 HDFS的未来
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    是一个由 Apache 基金会所开发的分布式系统基础架构。用户可以在 不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高 速运算和存储。 Hadoop 实现了一个分布式文件系统(Hadoop Distributed File System),简称 HDFS。HDFS 有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件 上;而且它提供高吞吐量(high 的要求, 可以以流的形式访问(streaming access)文件系统中的数据。 Hadoop 的框架最核心的设计就是:HDFS 和 MapReduce。HDFS 为海量的数 据提供了存储,而 MapReduce 则为海量的数据提供了计算。 1.4 HDFS 架构原理 HDFS 是 Hadoop 分布式文件系统(Hadoop Distributed File System)的缩写, master/slave 架构。一个 HDFS 集群包含一个单独的 NameNode 和多个 DataNode。 NameNode 作为 master 服务,它负责管理文件系统的命名空间和客户端对文 件的访问。NameNode 会保存文件系统的具体信息,包括文件信息、文件被分割 成具体 block 块的信息、以及每一个 block 块归属的 DataNode 的信息。对于整个 集群来说,HDFS 通过
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 许多垂直行业都在关注文件系统中庞大的数据。这些数据中通常包含大量无关的 明细信息,以及部分可用于趋势分析或丰富其他数据的精华信息。尽管这些数据 存储在数据库之外,但一些客户仍然希望将其与数据库中的数据整合在一起以提 取对业务用户有价值的信息。 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 直接访问 HDFS 文件。FUSE(File System in Userspace)项目针对这种情况提供了解决方法。有多种 FUSE 驱动程序支持用户挂 载 HDFS 存储,并将其作为常规文件系统处理。通过使用一个此类驱动程序,并在数据库实 例上挂载 HDFS(如果是 RAC 数据库,则在其所有实例上挂载 HDFS),即可使用外部表基 础架构轻松访问 HDFS 文件。
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    ▪ 大数据及其带来的挑战 ▪ MATLAB大数据处理 ➢ tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ 应用演示 – 汽车传感器数据分析 3 大数据概述 大数据的”4V”特征: ▪ Volumes - 数据规模,数据规模巨大 – 资源调度模型,实现数据跨节点的最小移动 • Map/Reduce – 跨节点分布式计算模型 • HDFS (Hadoop Distributed File System) - 跨节点的分布式文件系统 Hadoop Ecosystem 11 Spark Spark是一个流行的开源集群计算框架 • 并行计算引擎 • 使用广义的计算模型 • 基于内存进行计算(内存计算) Spark
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    Distributed File System,简称 HDFS,是一个分布式文件系统。 HDFS架构概述 1)NameNode(nn):存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、 文件权限),以及每个文件的块列表和块所在的DataNode等。 2)DataNode(dn):在本地文件系统存储文件块数据,以及块数据的校验和。 3)Secondary NameNo
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
共 10 条
  • 1
前往
页
相关搜索词
Hadoop概述大数时代Intel迁移阿里MaxCompute技术方案集成IBM硅谷生产调优手册3.0以及未来银河麒麟服务务器服务器操作系统操作系统V4软件适配通过Oracle并行处理并行处理数据MATLABSpark实现价值入门
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩