搜索

排序方式
12 个文档
  • pdf 文档 大数据时代的Intel之Hadoop

    0 码力 | 36 页 | 2.50 MB | 2 年前
    3
    本文主要介绍了英特尔在大数据时代中的角色及其Hadoop解决方案。文档详细阐述了英特尔如何通过优化硬件架构、提供稳定的企业级Hadoop发行版以及增强的管理和监控功能,来应对大数据处理的挑战。同时,英特尔通过改进HBase和实时数据处理能力,为用户提供了高效、可靠的大数据处理平台。文档还强调了大数据时代数据量的快速增长及其对技术的需求,展示了英特尔在大数据领域的技术创新和应用能力。
  • pdf 文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    0 码力 | 17 页 | 1.64 MB | 2 年前
    3
    本文探讨了MATLAB与Spark/Hadoop的集成,以实现大数据的高效处理和价值挖掘。文档介绍了大数据的4V特征(Volume、Variety、Value、Velocity),并详细说明了MATLAB在大数据处理中的技术,如tall数组、并行计算和分布式计算。同时,文章描述了MATLAB如何通过集成Hadoop分布式文件系统(HDFS)和Spark/Hadoop集群来运行代码,以及如何利用tall arrays处理超大数据集,支持机器学习算法的应用。
  • pdf 文档 Hadoop Shell 命令

    0 码力 | 10 页 | 99.34 KB | 2 年前
    3
    文档详细介绍了Hadoop文件系统(FS)Shell命令的使用方法,包括文件操作、权限管理、目录创建、文件删除等功能。每个命令如cat、chmod、mv、rm等都有详细的使用方法和示例,涵盖文件内容查看、权限修改、文件移动、删除等基本操作。文档还介绍了如何使用这些命令进行文件管理,包括递归操作和返回值说明。
  • pdf 文档 Hadoop 3.0以及未来

    0 码力 | 33 页 | 841.56 KB | 2 年前
    3
    文档详细介绍了Hadoop 3.0及其未来发展方向,包括HDFS的对象存储、高性能Namenode的优化、纠删码的完善,YARN对大规模集群的支持和资源调度的改进,以及MapReduce在任务层次的原生优化。文档还提到了Hadoop在大数据生态系统中的应用,如数据仓库、机器学习和流处理。
  • pdf 文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    0 码力 | 41 页 | 2.32 MB | 2 年前
    3
    文档主要介绍了Hadoop生产环境中的调优方法,包括MapReduce任务优化、HDFS参数配置、数据倾斜处理、资源管理参数调整等内容。文档详细讲解了NameNode内存计算、MapTask和ReduceTask的调优策略、HDFS多目录配置以及小文件优化方法。同时,还提供了具体的测试案例和调优参数示例,帮助用户提升Hadoop集群的性能和稳定性。
  • pdf 文档 大数据集成与Hadoop - IBM

    0 码力 | 16 页 | 1.23 MB | 2 年前
    3
    文档主要讨论了在大数据集成中使用Hadoop的最佳实践,强调了避免手动编码、采用统一的数据集成和治理平台、实施世界级数据治理的重要性。同时,文档分析了Hadoop的优势与局限性,指出MapReduce在处理大规模数据集成工作负载方面的限制,并提出了灵活支持RDBMS、ETL网格和Hadoop环境的架构。最后,文档强调了有效的大数据集成解决方案对于优化业务价值和提高投资回报率(ROI)的关键作用。
  • pdf 文档 通过Oracle 并行处理集成 Hadoop 数据

    0 码力 | 21 页 | 1.03 MB | 2 年前
    3
    本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群中的数据。通过使用外部表和表函数的方法,可以将 Hadoop 中的数据直接传递到 Oracle 查询中,避免了传统方法中将数据迁移到本地文件系统并物化到 Oracle 表中的繁琐过程。文档还提供了具体的实现示例,展示了如何利用 Oracle Database 11g 的并行处理框架和 Hadoop Map-Reduce 作业进行数据集成。
  • pdf 文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    0 码力 | 8 页 | 313.35 KB | 2 年前
    3
    银河麒麟服务器操作系统V4是一款高安全、高可用、高可靠的自主可控服务器操作系统,兼容多种国产服务器和软件。文档介绍了Hadoop软件的适配过程,包括解压、配置文件修改、集群格式化及启动等内容。Hadoop由HDFS和MapReduce组成,HDFS采用master/slave架构,NameNode管理文件系统命名空间,DataNode存储数据块。MapReduce将任务分解为Map和Reduce操作,适用于大规模数据处理。文档还详细描述了YARN资源管理系统,包括 ResourceManager、NodeManager 和 ApplicationMaster 的功能及其组件之间的通信机制。通过配置和启动集群,用户可以执行如 WordCount 测试用例等任务。
  • pdf 文档 Hadoop开发指南

    0 码力 | 12 页 | 135.94 KB | 2 年前
    3
    文档主要介绍了Hadoop的安装、配置及使用方法。内容包括在UHost上安装Hadoop客户端的两种方式(控制台安装和自行安装),详细说明了使用HDFS进行文件操作(如上传、追加、读取和删除文件)的步骤,以及如何通过WebHDFS接口进行文件管理。文档还提供了MapReduce任务的提交示例,并介绍了HDFS的日常运维操作,如重启服务、查看状态、修改副本数量等。
  • pdf 文档 Spark 简介以及与 Hadoop 的对比

    0 码力 | 3 页 | 172.14 KB | 2 年前
    3
    文档介绍了Spark的基本概念及其核心概念,包括弹性分布数据集(RDD)、RDD的转换与操作、容错性以及血统(Lineage)。文档详细对比了Spark与Hadoop在性能、灵活性和容错性方面的差异,指出Spark通过将中间数据保存在内存中提升了迭代运算的效率,并提供了多种数据操作类型,使其编程模型更加灵活。同时,文档强调了RDD的容错性机制,通过血统关系记录数据转换操作以实现数据的重新计算和恢复。
共 12 条
  • 1
  • 2
前往