通过Oracle 并行处理集成 Hadoop 数据白皮书 2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中 在图 1 中,我们利用 Oracle Database 11g 实现本文所述的数据库内的 mapreduce。通常情况 下,Oracle Database 11g 中的并行执行框架足以满足针对外部表大多数的并行操作。 在有些情况下(例如,如果 FUSE 不可用),外部表方法可能不适用。Oracle 表函数提供了 从 Hadoop 中获取数据的替代方法。本文附带的示例展示了一种这样的方法。更深入地来0 码力 | 21 页 | 1.03 MB | 1 年前3
大数据集成与Hadoop - IBM数据集, 并可根据需求变化从单一服务器扩展到数以千计的服务器。主 要的Hadoop组件包括Hadoop Distributed File System (用于存储大型文件)和Hadoop分布式并行处理框架(称为 MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解 决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 使整体性能和有效性降低一个数量级乃至更多。 Hadoop Yet Another Resource Negotiator(YARN) 纳入了MapReduce的资源管理功能,并将它们内置其 中,这样需要在Hadoop群集间动态执行的其他应用即可 使用它们。结果是,这种方法可将大规模可扩展数据集成 引擎作为本机 Hadoop应用程序来实现,而且不会影响 MapReduce的性能。希望在Hadoop上实现可扩展性和 有效 解更多信息,文中对该主题进行了详细讨论:http://bit. ly/1v2UXAT 4 大数据集成与 Hadoop 源数据 转换 净化 丰富 EDW 连续 单处理器 SMP系统 MPP群集系统或GRID 4 路并行 64 路并行 CPU CPU CPU CPU CPU 内存 共享内存 磁盘 磁盘 关键成功因素:大数据集成平台必须支持全部三个维度的可 扩展性 • 线性数据可扩展性:硬件和软件系统通过线性增加硬件0 码力 | 16 页 | 1.23 MB | 1 年前3
动手学深度学习 v2.0. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194 iv 5.1.3 在前向传播函数中执行代码 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195 5.1.4 效率 . . . . . . . . . . 3 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 7.4 含并行连结的网络(GoogLeNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.4.1 Inception块 . . . . . . . . . . . . . . . 511 12.3 自动并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 512 12.3.1 基于GPU的并行计算 . . . . . . . . . . . . . . . . . . . . .0 码力 | 797 页 | 29.45 MB | 1 年前3
Hadoop 概述具备检测故障 和快速执行自动恢复的功能。 HDFS 的设计针对批处理做了优化,它提供高吞吐量的数据访 问,而非低延迟的数据访问。运行在 HDFS 上的应用程序有着大型 数据集。在 HDFS 中一个典型的文件大小可以达到数百 GB 或更大, 所以 HDFS 显然支持大文件。它提供高效集成数据带宽,并且单个 群集可以扩展至数百节点。 Hadoop 是一个单一功能的分布式系统,为了并行读取数据集并 MapReduce 是 Hadoop 的一个编程组件,用于处理和读取大型 数据集。MapReduce 算法赋予了 Hadoop 并行化处理数据的能力。 简而言之,MapReduce 用于将大量数据浓缩为有意义的统计分析结 果。MapReduce 可以执行批处理作业,即能在处理过程中多次读取 大量数据来产生所需的结果。 对于拥有大型数据存储或者数据湖的企业和组织来说,这是一 种重要 ,以便用于分析 第 1 章 Hadoop 概述 5 或查询。 如图 1-1 所示,MapReduce 的工作流程就像一个有着大量齿轮 的古老时钟。在移动到下一个之前,每一个齿轮执行一项特定任务。 它展现了数据被切分为更小尺寸以供处理的过渡状态。 主节点 客户端 HDFS 分布式数据存储 YARN 分布式数据处理 从属 NAMENODE0 码力 | 17 页 | 583.90 KB | 1 年前3
OpenShift Container Platform 4.6 节点respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 机器配置守护进程指标 5.10.1. 机器配置守护进程指标 第 第 6 章 章 操作容器 操作容器 6.1. 了解容器 关于容器和 RHEL 内核内存 6.2. 在部署 POD 前使用初始容器来执行任务 6.2.1. 了解初始容器 6.2.2. 创建初始容器 6.3. 使用卷来持久保留容器数据 6.3.1. 了解卷 6.3.2. 使用 OpenShift Container Platform 了解如何复制文件 6.6.1.1. 要求 6.6.2. 将文件复制到容器或从容器中复制 6.6.3. 使用高级 rsync 功能 6.7. 在 OPENSHIFT CONTAINER PLATFORM 容器中执行远程命令 264 265 266 267 271 271 272 272 273 273 274 276 276 277 278 281 281 281 281 281 283 2850 码力 | 404 页 | 3.60 MB | 1 年前3
OpenShift Container Platform 4.14 更新集群准备使用手动维护的凭证更新集群 2.3. PREFLIGHT 验证内核模块管理 (KMM) 模块 第 第 3 章 章 执 执行集群更新 行集群更新 3.1. 使用 CLI 更新集群 3.2. 使用 WEB 控制台更新集群 3.3. 执行 EUS 到 EUS 更新 3.4. 执行 CANARY ROLLOUT 更新 3.5. 更新包含使用 RHEL 的计算(COMPUTE)系统的集群 3.6. 在断开连接的环境中更新集群 ,CVO 会在 称为 Runlevels 的独立阶段应用清单。大多数(但不是全部清单)支持其中一个集群 Operator。当 CVO 将清单应用到集群 Operator 时,Operator 可能会执行更新任务将其与新的指定版本协调。 CVO 监控每个应用的资源的状态,以及所有集群 Operator 报告的状态。只有活跃 Runlevel 中的所有清 单和集群 Operator 都达到稳定条件时,CVO 版本,这个延迟通常是一周或两周。但是,初始更新到最新 次版本的延迟可能需要更长的时间,通常为 45-90 天。 提升到 stable 频道的版本同时提升到 eus 频道。eus 频道的主要目的是,为了方便执行 EUS 到 EUS 更新的集群。 stable 频 频道安全或大于 道安全或大于 fast 频 频道中的一个 道中的一个发 发行版本 行版本吗 吗? ? 如果在 fast 频道中为发行版本发现了回归问题,它将被解析为与0 码力 | 149 页 | 1.94 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案................................................................................... 20 5.3 阶段 3:并行测试,割接 ............................................................................................. 实现低延迟的在线服务等 分析与报表:对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。 数据作业编排:将多个数据处理动作(数据移动、处理转换等)编排成为工作流并周期性地 执行以实现数据处理工作的自动化。如 Apache Oozie、Sqoop 等。 2.1.2 开源大数据组件架构 Alibaba Cloud MaxCompute 解决方案 9 * 完全自主开发的 compiler,语言功能开发更灵活,迭 代快,语法语义检查更加灵活高效 * 基于代价的优化器,更智能,更强大,更适合复杂的查 询 * 基于 LLVM 的代码生成,让执行过程更高效 * 支持复杂数据类型(array,map,struct) * 支持 Java、Python 语言的 UDF/UDAF/UDTF * 语法:Values、CTE、SEMIJOIN、FROM0 码力 | 59 页 | 4.33 MB | 1 年前3
Keras: 基于 Python 的深度学习库. . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.1 数据并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27 3.3.4.2 设备并行 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . • OpenGL 支持的 GPU, 比如 AMD, 通过 PlaidML Keras 后端。 2.5 Keras 拥有强大的多 GPU 和分布式训练支持 • Keras 内置对多 GPU 数据并行的支持。 • 优步的 Horovod 对 Keras 模型有第一流的支持。 • Keras 模型可以被转换为 TensorFlow 估计器并在 Google Cloud 的 GPU 集群上训练。 3.3.4 如何在多 GPU 上运行 Keras 模型? 我们建议使用 TensorFlow 后端。有两种方法可在多个 GPU 上运行单个模型:数据并行和设 备并行。 在大多数情况下,你最需要的是数据并行。 3.3.4.1 数据并行 数据并行包括在每个设备上复制一次目标模型,并使用每个模型副本处理不同部分的输入数据。 Keras 有一个内置的实用函数 keras.utils.multi_0 码力 | 257 页 | 1.19 MB | 1 年前3
OpenShift Container Platform 4.9 节点respective owners. 摘要 摘要 本文提供有关在集群中配置和管理节点、Pod 和容器的说明。它还提供有关配置 Pod 调度和放置、 使用作业(job)和 DaemonSet 来自动执行操作,以及确保集群保持高效性的其他任务信息。 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Platform 基础架构组件 5.14.1.1. 创建基础架构节点 第 第 6 章 章 操作容器 操作容器 6.1. 了解容器 关于容器和 RHEL 内核内存 6.2. 在部署 POD 前使用初始容器来执行任务 6.2.1. 了解初始容器 6.2.2. 创建初始容器 6.3. 使用卷来持久保留容器数据 192 194 194 194 195 199 201 201 201 201 202 要求 6.6.2. 将文件复制到容器或从容器中复制 6.6.3. 使用高级 rsync 功能 6.7. 在 OPENSHIFT CONTAINER PLATFORM 容器中执行远程命令 6.7.1. 在容器中执行远程命令 6.7.2. 用于从客户端发起远程命令的协议 6.8. 使用端口转发访问容器中的应用程序 6.8.1. 了解端口转发 6.8.2. 使用端口转发 6.8.3. 用于从客户端发起端口转发的协议0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化. . . . . . . . . . . . . . . . . . . 8.5. 管理虚拟机实例 8.6. 控制虚拟机状态 8.7. 访问虚拟机控制台 8.8. 使用 SYSPREP 自动执行 WINDOWS 安装 8.9. 解决故障节点来触发虚拟机故障切换 8.10. 在虚拟机上安装 QEMU 客户机代理 8.11. 查看虚拟机的 QEMU 客户机代理信息 8.12. 在虚拟机中管理配置映射、SECRET 页面上监控资源、详情、状态和顶级用户。 在虚 在虚拟 拟机 机仪表板上查看有关虚拟机的高级信息。 查看虚拟机日志。 自 自动 动您的部署 您的部署 使用 Ansible 自动执行虚拟机部署。 使用 sysprep 自动执行 Windows 虚拟机部署。 2.4. 其他资源 关于 Kubernetes NMState Operator 为虚拟机指定节点 实时迁移 虚拟机模板 配置本地存储 Foundation Storage,则一次克 隆超过 100 个虚拟机可能会失败。(BZ#1989527) 作为临时解决方案,您可以通过在存储配置集清单中设置 spec.cloneStrategy: copy 来执行 主机辅助副本。例如: $ oc annotate --overwrite -n openshift-cnv hyperconverged kubevirt-hyperconverged kubevirt0 码力 | 307 页 | 3.45 MB | 1 年前3
共 172 条
- 1
- 2
- 3
- 4
- 5
- 6
- 18













