积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(9)Hadoop(9)

语言

全部中文(简体)(8)西班牙语(1)

格式

全部PDF文档 PDF(9)
 
本次搜索耗时 0.016 秒,为您找到相关结果约 9 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 大数据集成与Hadoop - IBM

    单一应用程序(对每个数 据分区执行相同的应用程 序逻辑)。 使用软件数据流来实施 项目 软件数据流通过简化在一 个或多个节点实施和执行 数据管道和数据分区的过 程,从而充分利用非共享 架构。软件数据流还可以 将构建和优化多位用户运 行的并行应用程序的复杂 问题隐藏起来。 利用数据分区实现线性 数据可扩展性 大数据集分散在多个独立 节点间,单个作业对所有 分区数据执行相同的应用 程序逻辑。 形成设计隔离的环境 Information Server”中了解更多信 息:http://ibm.co/UX1RqB 6 大数据集成与 Hadoop 优化大数据集成工作负载:一种平衡的方法 由于几乎所有Hadoop大数据用例和场景都需要首先进行大数 据集成,所以企业必须确定如何优化整个企业的此类工作负载。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 实现低成本历史归档数据 缺点 • 可能需要复杂的编程工作 • MapReduce通常比并行数 据库或可扩展ETL工具速度 更慢 • 风险:Hadoop目前仍然是 一项新兴技术 IBM软件 7 以下是优化大数据集成工作负载时需要遵循的三大重要指导 原则: 1. 将大数据集成处理推向数据,而不是将数据推向处理:指定 可在RDBMS、Hadoop和ETL网格中执行的适当流程。 2. 避免手动编码
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 Hadoop 概述

    本进程,例如对底层操作系统及其文件系统的抽象。Hadoop Common 还包含必要的 Java 归档(Java Archive,JAR)文件和用于启 动 Hadoop 的脚本。Hadoop Common 包甚至提供了源代码和文档, 以及贡献者的相关内容。如果没有 Hadoop Common,你无法运行 Hadoop。 与任何软件栈一样,Apache 对于配置 Hadoop Common 有一定 要求。大体了解 础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器 总会遇到一台或者多台无法正常工作的风险。HDFS 具备检测故障 和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化,它提供高吞吐量的数据访 问,而非低延迟的数据访问。运行在 HDFS 上的应用程序有着大型 数据集。在 HDFS 中一个典型的文件大小可以达到数百 GB 或更大, 所以 HDFS 显然支持大文件。它提供高效集成数据带宽,并且单个 提供了一种为数据赋予结构的渠道,并且通过一种名为 HiveQL 的类 SQL 语言进行数据查询。 Hive Thrift 服务器 驱动程序 解析器 执行 Hive Web 接口 计划器 优化器 MS 客户端 元存储 图 1-3 1.4 与其他系统集成 如果在科技领域工作,你一定清楚地知道集成是任何成功实现 中必不可少的部分。一般来说,通过一些发现流程或计划会议,组
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    namenode.handler.count=20 × ??????????? ????,比如集群规模(DataNode 台 数)为 3 台时,此参数设置为 21。可通过简单的 python 代码计算该值,代码如下。 [atguigu@hadoop102 ~]$ sudo yum install -y python [atguigu@hadoop102 ~]$ python Python 2 6)如果数据不均衡,可以用命令实现集群的再平衡 [atguigu@hadoop102 hadoop-3.1.3]$ sbin/start-balancer.sh - threshold 10 第 5 章 HDFS—存储优化 注:演示纠删码和异构存储需要一共 5 台虚拟机。尽量拿另外一套集群。提前准备 5 台 服务器的集群。 5.1 纠删码 5.1.1 纠删码原理 HDFS 默认情况下,一个文件有 3 MapReduce 程序效率的瓶颈在于两点: 1)计算机性能 CPU、内存、磁盘、网络 2)I/O 操作优化 (1)数据倾斜 (2)Map 运行时间太长,导致 Reduce 等待过久 (3)小文件过多 8.2 MapReduce 常用调优参数 MapReduce优化(上) Map1方法 分区1 分区2 写入数据 第一次溢出 排序 第二次溢出 Combiner
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    背景开发者直接上手,特别在大数据规模下性能强大。 * 完全自主开发的 compiler,语言功能开发更灵活,迭 代快,语法语义检查更加灵活高效 * 基于代价的优化器,更智能,更强大,更适合复杂的查 询 * 基于 LLVM 的代码生成,让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF SET)、脚本运行模式、参 数化视图 * 支持外表(外部数据源+StorageHandler 支持非结构化 数据) MapReduce MaxCompute MR 支持 MapReduce 编程接口(提供优化增强的 MaxCompute MapReduce,也提供高度兼容 Hadoop 的 MapReduce 版本) 不暴露文件系统,输入输出都是表 通过 MaxCompute 客户端工具、Dataworks
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    面向大数据应用,在计算、存储和网络方面提供更快更为 高效的架构级别的优化方案 • 持续投入大数据应用开发,促迚软件系统和服务的丌断优 化和创新 • 推迚终端设备和传感器的智能化,构建亏联、可管理的和 安全的分布式架构 软硬结合 Intel Hadoop商业发行版 优化的大数据处理软件栈 稳定的企业级hadoop发行版 利用硬件新技术迚行优化 HBase改迚和创新,为Hadoop提供实时数据处理能力 1.0.3 分布式计算框架 HDFS 1.0.3 分布式文件系统 R 统计语言 Intel Hadoop Manager – 安装、配置、管理、监控、告警 英特尔Hadoop性能优化 测试配置  性能数据在8台英特尔至强服务器组成的小规模集群上测试得到  服务器配置:6核Intel E5 CPU, 48GB内存,8块 7200rpm SATA硬盘, 千兆以太网 去除了MapReduce的overhead,大大减少了数据传输 • 性能有3X~10X的提升 HBase的性能优化 预分配region 启用压缩已减少HDFS数据量,可提高读性能 Region Server迚程配置大内存(>16G) 每个Region Server拥有的region数量<300 优化表结构设计,防止少数几个region成为瓶颈 • 一个简单的经验公式:每台region server纯写入时高负载应能
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Spark、Kafka、Cassandra等开源大数据顷目建立ebay的广告和数 据平台。 • 加入ebay前,在intel工作6年,大数据架构师,负责领导大数据的 开源贡献、基于Intel平台的开源顷目优化以及一些基于Spark的大 规模机器/深度学习顷目。 • 超过9年的互联网、云计算、大数据的工作经验。 概要 • Hadoop的历叱 • Hadoop 3介绍  Common  HDFS YARN的Web页面的增强 • YARN-3368 Hadoop 3介绍 • Common • HDFS • YARN • MapReduce  Task层次的Native优化 MapReduce Task层次Native优化 • 对map output collector的Native实现,对于shuffle密集型的task能 带来30%的性能提升。 Hadoop 的未来 HDFS的未来
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    Hadoop 中存储的数据的一个模板实现。显然可能存在其他的甚至可能更好的实现。 下图是图 2 中原始示意图在技术上更准确、更具体的展示,解释了我们要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 示例代码 图3 至 图 5 实现的解决方案使用以下代码。所有的代码均在 Oracle Database 11g 和 5 个节点 的 Hadoop 集群上进行过测试。与大多数白皮书一样,请将这些脚本复制到文本编辑器中并 确保格式正确。
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    合资组建。 (2)公司成立之初就吸纳了大约 25 名至 30 名专门研究 Hadoop 的雅虎工程师,上述 工程师均在 2005 年开始协助雅虎开发 Hadoop,贡献了 Hadoop80%的代码。 (3)Hortonworks 的主打产品是 Hortonworks Data Platform(HDP),也同样是 100%开 源的产品,HDP 除常见的项目外还包括了 Ambari,一款开源的安装和管理系统。 [atguigu@hadoop102 ~]$ mkdir bin [atguigu@hadoop102 ~]$ cd bin [atguigu@hadoop102 bin]$ vim xsync 在该文件中编写如下代码 #!/bin/bash #1. 判断参数个数 if [ $# -lt 1 ] then echo Not Enough Arguement! exit; fi sterid, 与未删除DataNode的clusterid不一致 9)执行命令不生效,粘贴 Word 中命令时,遇到-和长–没区分开。导致命令失效 解决办法:尽量不要粘贴 Word 中代码。 10)jps 发现进程已经没有,但是重新启动集群,提示进程已经开启。 原因是在 Linux 的根目录下/tmp 目录中存在启动的进程临时文件,将集群相关进程删 除掉,再重新启动集群。
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 MATLAB与Spark/Hadoop相集成:实现大数据的处理和价值挖

    tall数组 ➢ 并行与分布式计算 ▪ MATLAB与Spark/Hadoop集成 ➢ MATLAB访问HDFS(Hadoop分布式文件系统) ➢ 在Spark/Hadoop集群上运行MATLAB代码 ▪ 应用演示 – 汽车传感器数据分析 3 大数据概述 大数据的”4V”特征: ▪ Volumes - 数据规模,数据规模巨大 互联网、社交网络的普及,全社会的数字化转型,数据规模向PB级发展
    0 码力 | 17 页 | 1.64 MB | 1 年前
    3
共 9 条
  • 1
前往
页
相关搜索词
大数集成HadoopIBM概述硅谷技术生产调优手册迁移阿里MaxCompute方案时代Intel3.0以及未来通过Oracle并行处理并行处理数据入门MATLABSpark实现价值
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩