积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(9)Hadoop(9)

语言

全部中文(简体)(8)西班牙语(1)

格式

全部PDF文档 PDF(9)
 
本次搜索耗时 0.015 秒,为您找到相关结果约 9 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    数据源:数据源包括关系型数据库、日志文件、实时消息等。  数据存储:面向海量数据存储的分布式文件存储服务,支持 结构化数据和非结构数据数据存 储,我们也常称之为数据湖。如 HDFS、对象存储服务等。  批处理:由于大数据场景必须处理大规模的数据集,批处理往往需要从数据存储中读取大量 数据进 行长 时间 处理 分析 ,并将 处理 后的 数据 写 入 新的 数据 对象 供后 续使 用。如 Hive、 MapReduce、Spark Streaming、Storm 等。  机器学习:满足机器学习工作负载的服务。如当前流行的 Spark MLib/ML、Tensorflow 等。  分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具 访问,利用 Hbase 实现低延迟的在线服务等 关服务的迁移至 阿里云大数据产品服务有更好的理解。 组件分类 Hadoop 开源组件 阿里云产品/产品组件 数据存储 HDFS 文件系统 对象存储 MaxCompute 存储(仅开放表数据存储) OSS 对象存储 EMR HDFS 批处理 Hadoop MapReduce Hive Spark MaxCompute 批处理(MaxCompute
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    HDFS,则是 Hadoop 的核心,然而它并不会威胁到你的预算。如果要分析一组数 据,你可以使用 MapReduce 中包含的编程逻辑,它提供了在 Hadoop 群集上横跨多台服务器的可扩展性。为实现资源管理,可考虑将 Hadoop YARN 加入到软件栈中,它是面向大数据应用程序的分布式 操作系统。 ZooKeeper 是另一个 Hadoop Stack 组件,它能通过共享层次名 称空间的数据寄存器(称为 4 Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务 器部署。它具有高度的容错性,并且被设计为能够部署在低成本的 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器 运行在群集中大量低成本的机 器上。既然已经介绍了用于读取数据的工具,下一步便是用 MapReduce 来处理它。 1.1.3 MapReduce 是什么 MapReduce 是 Hadoop 的一个编程组件,用于处理和读取大型 数据集。MapReduce 算法赋予了 Hadoop 并行化处理数据的能力。 简而言之,MapReduce 用于将大量数据浓缩为有意义的统计分析结 果。MapReduce
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    Institute 统计和报表 价值 数据挖掘和预测性分析 大数据时代的Intel • Intel的角色 • Intel Hadoop商业发行版 • 对象存储技术 Intel的角色 • 面向大数据应用,在计算、存储和网络方面提供更快更为 高效的架构级别的优化方案 • 持续投入大数据应用开发,促迚软件系统和服务的丌断优 化和创新 • 推迚终端设备和传感器的智能化,构建亏联、可管理的和 25000 82000 查询数/秒 揑入记录数/秒 HBase写入性能讨论 写入时的性能瓶颈: • 客户端 • 使用Write buffer减少RPC • 避免频繁创建HTable对象 • 如果可以,关闭WAL • Region负载丌均衡:要让写均匀分布到所有的region server上 • 如果写入的row key是基本单调的(例如时序数据),那么基本上会都落在同 thread数,防止阻塞写入 • 过多的split • 预分配region 大对象的高效存储(IDH2.3) 在交通、金融等领域,要求存储大量的图片 • 将图片存入HBase,引起大量的compaction • 将图片存入HDFS,管理使用麻烦 IDH引入了表外存储以解决大对象的高效存储问题 • 类似Oracle的BLOB存储 • 对用户透明 • 2X以上的写入性能,还有迚一步提升的空间
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 银河麒麟服务器操作系统V4 Hadoop 软件适配手册

    .................... 7 银河麒麟服务器操作系统 V4 hadoop 软件适配手册 2 1 概述 1.1 系统概述 银河麒麟服务器操作系统主要面向军队综合电子信息系统、金融系统以及电 力系统等国家关键行业的服务器应用领域,突出高安全性、高可用性、高效数据 处理、虚拟化等关键技术优势,针对关键业务构建的丰富高效、安全可靠的功能 特性,兼容 是一种计算模型,该模型可以将大型数据处理任务分解成很多单 个的、可以在服务器集群中并行执行的任务,而这些任务的计算结果可以合并在 一起来计算最终的结果。简而言之,Hadoop Mapreduce 是一个易于编程并且能在 大型集群(上千节点)快速地并行得处理大量数据的软件框架,以可靠,容错的 方式部署在商用机器上。MapReduce 这个术语来自两个基本的数据转换操作:map 过程和 reduce 过程。
    0 码力 | 8 页 | 313.35 KB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    • 利用商业硬件和存储 • 释放数据库服务器上的容量 • 支持处理非结构化数据 • 利用Hadoop功能保留数据 (如更新和编写索引) • 实现低成本历史归档数据 缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 第一项最佳实践是随时随地避免在大数据集成的各个层面采 用手动编码。相反,利用商业数据集成软件提供的图形用户界 面提供活动支持,如: • 在企业中实施数据访问和移动 • 数据集成逻辑 • 通过各种逻辑对象组装数据集成作业 • 组装更大的工作流 • 数据治理 • 运营和行政管理 通过采用这项最佳实践,企业就能利用商业数据集成软件久 经考验的生产、成本、价值实现时间以及强大的运营和行政控 制 PureData ™ System 手动编码 相较于手 自我记录动编码, 开发成本节约 87% 87% 企业间复杂UI的出现导致各种 数据访问和集成需求。 预置的数据集成解决方案可简化使用逻辑对象创建数据集成作业的过程。 预置的数据集成解决方案有助于映射和管理 企业间的数据治理需求。 并行读取 HDFS文件 转换/ 重建数据 联接两个 HDFS文件 创建新的HDFS 文 件 ,
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    访问和处理数据变得困难; – 需要学习使用新的工具和新的编程方式; – 不得不重写算法以应对数据规模的增大; ▪ 现有处理或计算方法下的结果质量受到影响 – 被迫只能处理一部分数据(数据子集); – 采用新的工具或重写算法会对现有生产力产生影响; ▪ 数据处理与分析所需时间增长 – 数据规模增大、数据复杂度增加,增加处理难度和所需时间; 5 MATLAB的大数据处理 ▪ 编程 ▪ Streaming ▪ Block tall arrays ▪ 自动将数据分解成适合内存的小 “块”(chunk) ▪ 计算过程中,一次处理一个“块”(chunk) 的数据 ▪ 对tall数组(tall array)的编程方式与MATLAB 标准数组 编程方式一致 Single Machine Memory Process 8 ▪ MATLAB本地多核并行计算计 (PCT, Parallel Computing Toolbox)
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    是当前最流行的开源大数据内存计算框架。用于实时计算的场景较多。 6)Oozie:Oozie 是一个管理 Hadoop 作业(job)的工作流程调度管理系统。 7)Hbase:HBase 是一个分布式的、面向列的开源数据库。HBase 不同于一般的关系数据库, 它是一个适合于非结构化数据存储的数据库。 8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 Spark 简介以及与 Hadoop 的对比

    这些多种多样的数据集操作类型,给给开发上层应用的用户提供了方便。各个处理节点 之间的通信模型不再像 Hadoop 那样就是唯一的 Data Shuffle 一种模式。用户可以命名, 物化,控制中间结果的存储、分区等。可以说编程模型比 Hadoop 更灵活。 3. 由于 RDD 的特性,Spark 不适用那种异步细粒度更新状态的应用,例如 web 服务的存 储或者是增量的 web 爬虫和索引。就是对于那种增量修改的应用模型不适合。
    0 码力 | 3 页 | 172.14 KB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Task层次Native优化 • 对map output collector的Native实现,对于shuffle密集型的task能 带来30%的性能提升。 Hadoop 的未来 HDFS的未来 • 对象存储 - HDFS-7240 • 更高性能的Namenode:更高效的内存使用,锁的改进等 • Erasure Coding的完善 YARN的未来 • 更大规模的集群支持 • 更好的资源调度,隔离和多租户
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
共 9 条
  • 1
前往
页
相关搜索词
Hadoop迁移阿里MaxCompute技术方案概述大数时代Intel银河麒麟服务务器服务器操作系统操作系统V4软件适配手册集成IBMMATLABSpark实现数据处理价值硅谷入门简介以及对比3.0未来
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩