通过Oracle 并行处理集成 Hadoop 数据白皮书 2011 年 1 月 通过 Oracle 并行处理集成 Hadoop 数据 1 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 引言 本文详细介绍了如何从 Oracle 数据库访问存储在 Hadoop 集群里的数据。请注 意,本文选择了 Hadoop 和 HDFS 作为示例,但这里的策略同样适用于其他分 布式存储机制。本文中介绍了各种访问方法,还通过一个具体示例说明了其中一 种访问方法的实现。 2 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 外部 Hadoop 数据的访问方法 要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数0 码力 | 21 页 | 1.03 MB | 1 年前3
大数据集成与Hadoop - IBM数据集, 并可根据需求变化从单一服务器扩展到数以千计的服务器。主 要的Hadoop组件包括Hadoop Distributed File System (用于存储大型文件)和Hadoop分布式并行处理框架(称为 MapReduce)。 但是,Hadoop基础架构本身并没有提供完整的大数据集成解 决方案,摆在人们面前的既有挑战,也有机遇,只有处理好这些 问题,才能安享各项优势,最大限度提高投资回报率 解更多信息,文中对该主题进行了详细讨论:http://bit. ly/1v2UXAT 4 大数据集成与 Hadoop 源数据 转换 净化 丰富 EDW 连续 单处理器 SMP系统 MPP群集系统或GRID 4 路并行 64 路并行 CPU CPU CPU CPU CPU 内存 共享内存 磁盘 磁盘 关键成功因素:大数据集成平台必须支持全部三个维度的可 扩展性 • 线性数据可扩展性:硬件和软件系统通过线性增加硬件 据可扩展性,这意味着在设计之初,并未考虑利用非共享大规模 并行架构。它们依靠共享的内存多线程,而非软件数据流。 此外,有些供应商不支持将大数据集分散在多个节点间,无法对 独立数据分区并行运行单一数据集成作业,也无法实现设计一 次作业,无需重新设计和重新调整作业即可在任何硬件配置中 非共享架构 从头开始创建软件,以便 利用非共享的大规模并行 架构,方法是将数据集分 散到多个计算节点,执行 单一应用程序(对每个数0 码力 | 16 页 | 1.23 MB | 1 年前3
动手学深度学习 v2.0Kaggle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182 4.10.3 访问和读取数据集 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183 4.10.4 数据预处理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197 5.2.1 参数访问 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198 5.2.2 参数初始化 3 训练模型 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 262 7.4 含并行连结的网络(GoogLeNet) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 263 7.4.1 Inception块0 码力 | 797 页 | 29.45 MB | 1 年前3
OpenShift Container Platform 4.6 节点2.7.4.1. 使用配置映射在容器中填充环境变量 2.7.4.2. 使用配置映射为容器命令设置命令行参数 2.7.4.3. 使用配置映射将内容注入卷 2.8. 使用设备插件来利用 POD 访问外部资源 2.8.1. 了解设备插件 设备插件示例 2.8.1.1. 设备插件部署方法 2.8.2. 了解设备管理器 2.8.3. 启用设备管理器 2.9. 在 POD 调度决策中纳入 POD 5.3.1. 修改节点 5.4. 管理每个节点的 POD 数量上限 5.4.1. 配置每个节点的最大 pod 数量 5.5. 使用 NODE TUNING OPERATOR 5.5.1. 访问 Node Tuning Operator 示例规格 5.5.2. 自定义调整规格 5.5.3. 在集群中设置默认配置集 5.5.4. 支持的 Tuned 守护进程插件 5.6. 了解节点重新引导 . . . . . . . . . . . . . . . . . . . . . . 6.7.1. 在容器中执行远程命令 6.7.2. 用于从客户端发起远程命令的协议 6.8. 使用端口转发访问容器中的应用程序 6.8.1. 了解端口转发 6.8.2. 使用端口转发 6.8.3. 用于从客户端发起端口转发的协议 6.9. 在容器中使用 SYSCTL 6.9.1. 关于 sysctl0 码力 | 404 页 | 3.60 MB | 1 年前3
Hadoop 概述大数据解决方案 4 Machine,VM)或笔记本电脑上完成初始配置,而且可以升级到服务 器部署。它具有高度的容错性,并且被设计为能够部署在低成本的 硬件之上。它提供对应用程序数据的高吞吐量访问,适合于面向大 型数据集的应用程序。 在任何环境中,硬件故障都是不可避免的。有了 HDFS,你的 数据可以跨越数千台服务器,而每台服务器上均包含一部分基础数 据。这就是容错功能发挥作用的地方。现实情况是,这么多服务器 的设计针对批处理做了优化,它提供高吞吐量的数据访 问,而非低延迟的数据访问。运行在 HDFS 上的应用程序有着大型 数据集。在 HDFS 中一个典型的文件大小可以达到数百 GB 或更大, 所以 HDFS 显然支持大文件。它提供高效集成数据带宽,并且单个 群集可以扩展至数百节点。 Hadoop 是一个单一功能的分布式系统,为了并行读取数据集并 提供更高的吞吐量,它与群集中的机器进行直接交互。可将 MapReduce 来处理它。 1.1.3 MapReduce 是什么 MapReduce 是 Hadoop 的一个编程组件,用于处理和读取大型 数据集。MapReduce 算法赋予了 Hadoop 并行化处理数据的能力。 简而言之,MapReduce 用于将大量数据浓缩为有意义的统计分析结 果。MapReduce 可以执行批处理作业,即能在处理过程中多次读取 大量数据来产生所需的结果。0 码力 | 17 页 | 583.90 KB | 1 年前3
RocketMQ v3.2.4 开发指南b.com/alibaba/RocketMQ 4 在 RocketMQ 中,所有消息队列都是持丽化,长度无限的数据结构,所谓长度无限是挃队列中的每个存储 单元都是定长,访问其中的存储单元使用 Offset 来访问,offset 为 java long 类型,64 位,理论上在 100 年内丌会溢出,所以讣为是长度无限,另外队列中只保存最近几天的数据,乀前的数据会挄照过期时间来 删除。 Buffer 大小,而丏消息 堆积后,性能下降丌会太大,因为内存中数据多少对亍对外提供的访问能力影响有限。 (2). 消息堆积到持丽化存储系统中,例如 DB,KV 存储,文件记彔形式。 当消息丌能在内存 Cache 命中时,要丌可避免的访问磁盘,会产生大量读 IO,读 IO 的吞吏量直接决定了 消息堆积后的访问能力。 评估消息堆积能力主要有以下四点: (1). 消息能堆积多少条,多少字节?即消息的堆积容量。 项目开源主页:https://github.com/alibaba/RocketMQ 9 (3). 消息堆积后,正常消费的 Consumer 是否会叐影响? (4). 消息堆积后,访问堆积在磁盘的消息时,吞吏量有多大? 4.13 分布式事务 已知的几个分布式事务规范,如 XA,JTA 等。其中 XA 规范被各大数据库厂商广泛支持,如 Oracle,Mysql 等。 其中0 码力 | 52 页 | 1.61 MB | 1 年前3
Hadoop 迁移到阿里云MaxCompute 技术方案................................................................................... 20 5.3 阶段 3:并行测试,割接 ............................................................................................. 分析型数据存储:对数据进行处理加工后,面向应用场景,将数据以结构化的方式进行存储, 以便分析工具或分析应用能够获取数据。如利用 MPP 数据仓库、Spark SQL 等支持 BI 工具 访问,利用 Hbase 实现低延迟的在线服务等 分析与报表:对数据进行分析和展现以获取洞察。如 BI 工具、jupyter 等。 数据作业编排:将多个数据处理动作(数据移动、处理转换等)编排成为工作流并周期性地 模的存储及计算需求,最大可达 EB 级别。同一个 MaxCompute 项目支持企业从创业团队发展到独角兽的 数据规模需求; 数据分布式存储,多副本冗余,数据存储对外仅开放表的 操作接口,不提供文件系统访问接口 自研数据存储结构,表数据列式存储,默认高度压缩,后 D k n e P y l w s o u ) ( ( f I w s A n t S B M / ) g p L K n0 码力 | 59 页 | 4.33 MB | 1 年前3
OpenShift Container Platform 4.14 更新集群除了 Available,Progressing, 和 Upgradeable 外,还有影响集群版本和 Operator 的条件类型。 Failing:集群版本状况类型 Failing 表示集群无法访问其所需状态,不健康,需要管理员干预。 Invalid: 集群版本条件类型 Invalid 表示集群版本具有阻止服务器执行操作的错误。只要设置了此 条件,CVO 仅协调当前状态。 RetrievedUpdates 命名空间中创建一个名为 version-$version-$hash 的作 业。此作业使用执行发行镜像的容器,因此集群通过容器运行时下载镜像。然后,作业会将清单 和元数据从发行镜像提取到 CVO 访问的共享卷。 5. CVO 验证提取的清单和元数据。 6. CVO 检查一些 preconditions,以确保集群中没有检测到有问题的条件。某些条件可能会阻止更 新进行。这些条件可以由 CVO OPENSHIFT 更新 更新 11 例如: CVO 在内部为清单构建依赖项图,其中 CVO 遵循以下规则: 在更新过程中,在较高运行级别的清单之前会应用较低运行级别的清单。 在一个运行级别中,可以并行应用不同组件的清单。 在一个运行级别中,单个组件的清单以字典顺序应用。 然后,CVO 按照生成的依赖项图应用清单。 注意 注意 对于某些资源类型,CVO 在应用清单后监控资源,并将其视为仅在资源达到稳定状态后成0 码力 | 149 页 | 1.94 MB | 1 年前3
OpenShift Container Platform 4.9 节点中使用配置映射 2.7.4.1. 使用配置映射在容器中填充环境变量 2.7.4.2. 使用配置映射为容器命令设置命令行参数 2.7.4.3. 使用配置映射将内容注入卷 2.8. 使用设备插件通过 POD 访问外部资源 2.8.1. 了解设备插件 设备插件示例 2.8.1.1. 设备插件部署方法 2.8.2. 了解设备管理器 2.8.3. 启用设备管理器 2.9. 在 POD 调度决策中纳入 POD 4. 为节点添加内核参数 5.4. 管理每个节点的 POD 数量上限 5.4.1. 配置每个节点的最大 pod 数量 5.5. 使用 NODE TUNING OPERATOR 5.5.1. 访问 Node Tuning Operator 示例规格 5.5.2. 自定义调整规格 5.5.3. 在集群中设置默认配置集 5.5.4. 支持的 TuneD 守护进程插件 5.6. 使用 POISON 6.7. 在 OPENSHIFT CONTAINER PLATFORM 容器中执行远程命令 6.7.1. 在容器中执行远程命令 6.7.2. 用于从客户端发起远程命令的协议 6.8. 使用端口转发访问容器中的应用程序 6.8.1. 了解端口转发 6.8.2. 使用端口转发 6.8.3. 用于从客户端发起端口转发的协议 6.9. 在容器中使用 SYSCTL 6.9.1. 关于 sysctl0 码力 | 374 页 | 3.80 MB | 1 年前3
OpenShift Container Platform 4.10 虚拟化. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8.5. 管理虚拟机实例 8.6. 控制虚拟机状态 8.7. 访问虚拟机控制台 8.8. 使用 SYSPREP 自动执行 WINDOWS 安装 8.9. 解决故障节点来触发虚拟机故障切换 8.10. 在虚拟机上安装 QEMU 客户机代理 8.11. 查看虚拟机的 当您使用具有不同 SELinux 上下文的两个 pod 时,带有 ocs-storagecluster-cephfs 存储类的虚 拟机无法迁移,虚拟机状态变为 Paused。这是因为两个 pod 会尝试同时访问共享 ReadWriteMany CephFS 卷。(BZ#2092271) 作为临时解决方案,使用 ocs-storagecluster-ceph-rbd 存储类在使用 Red Hat Ceph Manager。 如果您拥有有限的互联网连接,您可以在 Operator Lifecycle Manager 中配置代理支持 以访问红帽提供 的 OperatorHub。 4.1.5. 实时迁移 实时迁移有以下要求: 使用 ReadWriteMany (RWX)访问模式的共享存储. 足够的 RAM 和网络带宽。 如果虚拟机使用主机型号 CPU,则节点必须支持虚拟机的主机型号 CPU。 注意0 码力 | 307 页 | 3.45 MB | 1 年前3
共 212 条
- 1
- 2
- 3
- 4
- 5
- 6
- 22













