积分充值
 首页
前端开发
AngularDartElectronFlutterHTML/CSSJavaScriptReactSvelteTypeScriptVue.js构建工具
后端开发
.NetC#C++C语言DenoffmpegGoIdrisJavaJuliaKotlinLeanMakefilenimNode.jsPascalPHPPythonRISC-VRubyRustSwiftUML其它语言区块链开发测试微服务敏捷开发架构设计汇编语言
数据库
Apache DorisApache HBaseCassandraClickHouseFirebirdGreenplumMongoDBMySQLPieCloudDBPostgreSQLRedisSQLSQLiteTiDBVitess数据库中间件数据库工具数据库设计
系统运维
AndroidDevOpshttpdJenkinsLinuxPrometheusTraefikZabbix存储网络与安全
云计算&大数据
Apache APISIXApache FlinkApache KarafApache KyuubiApache OzonedaprDockerHadoopHarborIstioKubernetesOpenShiftPandasrancherRocketMQServerlessService MeshVirtualBoxVMWare云原生CNCF机器学习边缘计算
综合其他
BlenderGIMPKiCadKritaWeblate产品与服务人工智能亿图数据可视化版本控制笔试面试
文库资料
前端
AngularAnt DesignBabelBootstrapChart.jsCSS3EchartsElectronHighchartsHTML/CSSHTML5JavaScriptJerryScriptJestReactSassTypeScriptVue前端工具小程序
后端
.NETApacheC/C++C#CMakeCrystalDartDenoDjangoDubboErlangFastifyFlaskGinGoGoFrameGuzzleIrisJavaJuliaLispLLVMLuaMatplotlibMicronautnimNode.jsPerlPHPPythonQtRPCRubyRustR语言ScalaShellVlangwasmYewZephirZig算法
移动端
AndroidAPP工具FlutterFramework7HarmonyHippyIoniciOSkotlinNativeObject-CPWAReactSwiftuni-appWeex
数据库
ApacheArangoDBCassandraClickHouseCouchDBCrateDBDB2DocumentDBDorisDragonflyDBEdgeDBetcdFirebirdGaussDBGraphGreenPlumHStreamDBHugeGraphimmudbIndexedDBInfluxDBIoTDBKey-ValueKitDBLevelDBM3DBMatrixOneMilvusMongoDBMySQLNavicatNebulaNewSQLNoSQLOceanBaseOpenTSDBOracleOrientDBPostgreSQLPrestoDBQuestDBRedisRocksDBSequoiaDBServerSkytableSQLSQLiteTiDBTiKVTimescaleDBYugabyteDB关系型数据库数据库数据库ORM数据库中间件数据库工具时序数据库
云计算&大数据
ActiveMQAerakiAgentAlluxioAntreaApacheApache APISIXAPISIXBFEBitBookKeeperChaosChoerodonCiliumCloudStackConsulDaprDataEaseDC/OSDockerDrillDruidElasticJobElasticSearchEnvoyErdaFlinkFluentGrafanaHadoopHarborHelmHudiInLongKafkaKnativeKongKubeCubeKubeEdgeKubeflowKubeOperatorKubernetesKubeSphereKubeVelaKumaKylinLibcloudLinkerdLonghornMeiliSearchMeshNacosNATSOKDOpenOpenEBSOpenKruiseOpenPitrixOpenSearchOpenStackOpenTracingOzonePaddlePaddlePolicyPulsarPyTorchRainbondRancherRediSearchScikit-learnServerlessShardingSphereShenYuSparkStormSupersetXuperChainZadig云原生CNCF人工智能区块链数据挖掘机器学习深度学习算法工程边缘计算
UI&美工&设计
BlenderKritaSketchUI设计
网络&系统&运维
AnsibleApacheAWKCeleryCephCI/CDCurveDevOpsGoCDHAProxyIstioJenkinsJumpServerLinuxMacNginxOpenRestyPrometheusServertraefikTrafficUnixWindowsZabbixZipkin安全防护系统内核网络运维监控
综合其它
文章资讯
 上传文档  发布文章  登录账户
IT文库
  • 综合
  • 文档
  • 文章

无数据

分类

全部云计算&大数据(10)Hadoop(10)

语言

全部中文(简体)(8)西班牙语(1)中文(繁体)(1)

格式

全部PDF文档 PDF(10)
 
本次搜索耗时 0.018 秒,为您找到相关结果约 10 个.
  • 全部
  • 云计算&大数据
  • Hadoop
  • 全部
  • 中文(简体)
  • 西班牙语
  • 中文(繁体)
  • 全部
  • PDF文档 PDF
  • 默认排序
  • 最新排序
  • 页数排序
  • 大小排序
  • 全部时间
  • 最近一天
  • 最近一周
  • 最近一个月
  • 最近三个月
  • 最近半年
  • 最近一年
  • pdf文档 Hadoop 概述

    。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 提供的大型数据存储和多种数据类型。 第 1 章 Hadoop 概述 3 例如,让我们考虑类似 Google、Bing 或者 Twitter 这样的大型 数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产 大量数据来产生所需的结果。 对于拥有大型数据存储或者数据湖的企业和组织来说,这是一 种重要的组件,它将数据限定到可控的大小范围内,以便用于分析 第 1 章 Hadoop 概述 5 或查询。 如图 1-1 所示,MapReduce 的工作流程就像一个有着大量齿轮 的古老时钟。在移动到下一个之前,每一个齿轮执行一项特定任务。 它展现了数据被切分为更小尺寸以供处理的过渡状态。
    0 码力 | 17 页 | 583.90 KB | 1 年前
    3
  • pdf文档 通过Oracle 并行处理集成 Hadoop 数据

    要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE(File 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 (QC)。请注意,QC 表函数调用同时也承担 着处理角色。 在第 2 步中,该表函数调用 (QC) 使用 dbms_scheduler(图
    0 码力 | 21 页 | 1.03 MB | 1 年前
    3
  • pdf文档 Hadoop 迁移到阿里云MaxCompute 技术方案

    ................................ 42 Alibaba Cloud MaxCompute 解决方案 4 6.5.1 Hive SQL -> MaxCompute SQL 自动转换 ..................................................................... 42 6.5.2 UDF、MR 的输出,调整 hive 与 odps 的映射 ................................................... 46 7.1.5 生成 ODPS DDL、Hive SQL 以及兼容性报告 ................................................................. 48 7.1.6 查看兼容性报告,调整直到兼容性报告符合预期 odps 表和分区 .............................................................. 50 7.1.8 运行 hive_udtf_sql_runner.py,将 hive 的数据同步到 odps ........................................ 51 7.2 进阶功能..............
    0 码力 | 59 页 | 4.33 MB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(入门)

    2 Hadoop 发展历史(了解) Hadoop发展历史 1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优 化升级,查询引擎和索引引擎。 Hadoop创始人Doug Cutting 2)2001年年底Lucene成为Apache基金会的一个子项目。 3)对于海量数据的场景,Lucene框架面对与Google同样 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询 Spark Mlib 数据挖掘 Spark Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 它是一个适合于非结构化数据存储的数据库。 8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooK
    0 码力 | 35 页 | 1.70 MB | 1 年前
    3
  • pdf文档 大数据集成与Hadoop - IBM

    要首先进行大数 据集成,所以企业必须确定如何优化整个企业的此类工作负载。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 服务水平协议 (SLA)。该用例会引发以下问题: • 企业是否应卸载EDW中的所有ETL工作负载? • 是否应将所有大数据集成工作负载都推送到Hadoop? • 在没有并行关系数据库管理系统 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些 流程 缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS(使用ETL工具或手 动编码) • 无法利用商业硬件 • 通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速 , 对于运行ETL的工作负载而言,EDW是一种非常昂贵的 平台。 • ETL工作负载会导致查询SLA降级,最终需要您额外投 资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据,一旦进入EDW环 境将永远无法进行清理工作,继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很 长的时间,限制了快速响应最新需求的能力。
    0 码力 | 16 页 | 1.23 MB | 1 年前
    3
  • pdf文档 大数据时代的Intel之Hadoop

    50000 60000 70000 80000 90000 Open Source HBase (0.90.3) Advanced Region Balancing 25000 82000 查询数/秒 揑入记录数/秒 HBase写入性能讨论 写入时的性能瓶颈: • 客户端 • 使用Write buffer减少RPC • 避免频繁创建HTable对象 • 如果可以,关闭WAL • 2X的随机访问性能 • 1.3X的Scan性能 • 接近直接写入HDFS性能 Interactive Hive over HBase 可通过Hive来访问HBase,迚行SQL查询 • 使用MapReduce来实现 • 比Hive访问HDFS慢3~5倍 IDH引入了Interactive Hive over HBase • 完全的Hive支持:常用功能(select Hadoop方案 HBase:过车记录 HDFS:过车图片 架构灵活,适应业务要求,成本大幅降低 0 5000 10000 15000 20000 25000 30000 过车查询(s) 套牌分析(s) 碰撞分析(s) 原有方案 30 3600 28800 Hadoop方案 1 60 240 响应时间
    0 码力 | 36 页 | 2.50 MB | 1 年前
    3
  • pdf文档 Hadoop开发指南

    source ~/.bashrc 2. HDFS HDFS是⼀个⾼度容错性和⾼吞吐量的分布式⽂件系统。它被设计的易于扩展也易于使⽤,适合海量⽂件的存储。 2.1 HDFS基础操作 基础操作 查询⽂件 Usage: hadoop fs [generic options] -ls [-d] [-h] [-R] [] 上传⽂件 Usage: hadoop fs [generic
    0 码力 | 12 页 | 135.94 KB | 1 年前
    3
  • pdf文档 尚硅谷大数据技术之Hadoop(生产调优手册)

    209715200 bytes is more than the datanode's available RLIMIT_MEMLOCK ulimit of 65536 bytes. 我们可以通过该命令查询此参数的内存 [atguigu@hadoop102 hadoop-3.1.3]$ ulimit -a max locked memory (kbytes, -l) 64 第
    0 码力 | 41 页 | 2.32 MB | 1 年前
    3
  • pdf文档 這些年,我們一起追的Hadoop

    從 Batch 應用變成 Data Operating System: 透過 MapReduce 進行 Batch Processing 透過 Hive 與 Tez 進行 Interactive SQL Query ... 15 / 74 MapReduce 改造前 Hadoop 原來的架構,MapReduce 是一切應用的基礎 所有 Job 都得轉換成 MapReduce 16 / 74 Pig:High Level Language for Data Analysis (2010-09 成為 Top-Level Project) Hive:Data Warehousing and SQL-Like Query (2010-09 成為 Top-Level Project) Sqoop:Data Migration Tool Between HDFS and RDBMS Hadoop Query 與 PB-Scale Processing 的需求 三大目標: Speed:比 Hive 10 快 100 倍 Scale:撐的下 TB 到 PB 等級的資料 SQL Compatibility:最廣泛的 SQL 語法支援 13 個月內一共有來自 44 家公司 145 位 Developer 貢獻了 39 萬行程式碼給 Hive,產出 3 個 Release! 33 / 74 Stinger
    0 码力 | 74 页 | 45.76 MB | 1 年前
    3
  • pdf文档 Hadoop 3.0以及未来

    Hadoop 3.0 2017 Hadoop生态系统 文件存储层 HDFS 资源/任务调度 YARN 计算引擎MapReduce 计算引擎Spark NoSQL HBase 数据仓 库SQL 机器/深 度学习 Batch 任务 流处理 搜索 … Kafka Hadoop 3介绍 • Common  JDK 8+ 升级  Classpath隔离  Shell脚本的重构 Journal Node Write edit logs Read edit logs Block reports HDFS-6440 云计算-存储虚拟化 Hadoop 文件系统API SQL, 机器学习, 流处理, Batch… Hadoop 3介绍 • Common • HDFS • YARN  YARN Timeline Service v.2  YARN Federation
    0 码力 | 33 页 | 841.56 KB | 1 年前
    3
共 10 条
  • 1
前往
页
相关搜索词
Hadoop概述通过Oracle并行处理并行处理集成数据迁移阿里MaxCompute技术方案硅谷大数入门IBM时代Intel开发指南生产调优手册這些我們一起3.0以及未来
IT文库
关于我们 文库协议 联系我们 意见反馈 免责声明
本站文档数据由用户上传或本站整理自互联网,不以营利为目的,供所有人免费下载和学习使用。如侵犯您的权益,请联系我们进行删除。
IT文库 ©1024 - 2025 | 站点地图
Powered By MOREDOC AI v3.3.0-beta.70
  • 关注我们的公众号【刻舟求荐】,给您不一样的精彩
    关注我们的公众号【刻舟求荐】,给您不一样的精彩