Hadoop 概述
。 还有其他一些系统能与 Hadoop 进行集成并从其基础架构中受 益。虽然 Hadoop 并不被认为是一种关系型数据库管理系统 (RDBMS),但其仍能与 Oracle、MySQL 和 SQL Server 等系统一起 工作。这些系统都已经开发了用于对接 Hadoop 框架的连接组件。 我们将在本章介绍这些组件中的一部分,并且展示它们如何与 Hadoop 进行交互。 1.1 商业分析与大数据 提供的大型数据存储和多种数据类型。 第 1 章 Hadoop 概述 3 例如,让我们考虑类似 Google、Bing 或者 Twitter 这样的大型 数据存储。所有这些数据存储都会随着诸如查询和庞大用户基数等 活动事件而呈现出指数增长。Hadoop 的组件可以帮助你处理这些大 型数据存储。 类似 Google 这样的商业公司可使用 Hadoop 来操作、管理其数 据存储并从中产 大量数据来产生所需的结果。 对于拥有大型数据存储或者数据湖的企业和组织来说,这是一 种重要的组件,它将数据限定到可控的大小范围内,以便用于分析 第 1 章 Hadoop 概述 5 或查询。 如图 1-1 所示,MapReduce 的工作流程就像一个有着大量齿轮 的古老时钟。在移动到下一个之前,每一个齿轮执行一项特定任务。 它展现了数据被切分为更小尺寸以供处理的过渡状态。0 码力 | 17 页 | 583.90 KB | 1 年前3通过Oracle 并行处理集成 Hadoop 数据
要从 Oracle 数据库里访问某个文件系统中的外部文件或外部数据,最简单的方法莫过于使用 外部表。请参阅这里了解外部表。 外部表以表的形式展示存储在文件系统中的数据,并且可在 SQL 查询中完全透明地使用。 因此,可以考虑用外部表从 Oracle 数据库中直接访问 HDFS(Hadoop 文件系统)中存储的 数据。遗憾的是,常规的操作系统无法调用外部表驱动直接访问 HDFS 文件。FUSE(File 并行处理集成 Hadoop 数据 图 2. 利用表函数进行并行处理 由于表函数可以并行运行,Hadoop 流作业也可以不同程度地并行运行,并且后者不受 Oracle 查询协调器的控制,这种情况下,队列能提供负载平衡。 4 Oracle 白皮书 — 通过 Oracle 并行处理集成 Hadoop 数据 利用表函数的示例 要在何处、如何使用 后文给出的部分实际代码: 图 3. 启动 Mapper 作业并检索数据 第 1 步是确定由谁作为查询协调器。对此我们采用一种将具有相同键值的记录写入表的简单 机制。首个插入胜出,作为此进程的查询协调器 (QC)。请注意,QC 表函数调用同时也承担 着处理角色。 在第 2 步中,该表函数调用 (QC) 使用 dbms_scheduler(图0 码力 | 21 页 | 1.03 MB | 1 年前3第29 期| 2023 年9 月- 技术雷达
方面有很好的体验,建议您评估该平台是否适用于协作翻译工作流程。 30. Orca 试验 Orca 是一个专有的云安全平台,用于识别、优先级排序和修复安全风险和合规问题。它支持主流的云提供商和 混合设置。Orca 拥有广泛的安全查询和规则,以持续监控已部署的工作负载,检测配置错误、漏洞和合规性问 题。它支持云虚拟机、无服务器函数、容器以及已部署工作负载的 Kubernetes 上部署的应用。这些内置的安 全规则会定期更新 31. Trino 试验 Trino 以前被称之为 PrestoSQL,是一个专为面向大数据交互式分析查询而设计的开源分布式 SQL 查询引擎。经 过优化后,它可以在本地或者云上环境运行,并支持对 Hive、Cassandra、关系型数据库、甚至专有数据存储 等多种不同的数据源进行查询。它支持基于密码的认证、LDAP 和 OAuth 的身份验证机制,同时具备在 catalog、 schema 级别授予权限和访问控制的能力。我们的团队根据可视化、报告或机器学习用例等消费模式, 使用资源组进行管理和限制资源分配。基于 JMX 的监控提供了丰富的指标集,帮助实现在查询或用户级别进行 成本分配。我们的团队将 Trino 用作跨各种数据源的数据访问网关,当涉及到查询极大规模的数据时,Trino 对 平台 © Thoughtworks, Inc. All Rights Reserved. 22 我们的团队来说是一个可靠的选择。Trino0 码力 | 43 页 | 2.76 MB | 1 年前3Hadoop 迁移到阿里云MaxCompute 技术方案
................................ 42 Alibaba Cloud MaxCompute 解决方案 4 6.5.1 Hive SQL -> MaxCompute SQL 自动转换 ..................................................................... 42 6.5.2 UDF、MR 的输出,调整 hive 与 odps 的映射 ................................................... 46 7.1.5 生成 ODPS DDL、Hive SQL 以及兼容性报告 ................................................................. 48 7.1.6 查看兼容性报告,调整直到兼容性报告符合预期 odps 表和分区 .............................................................. 50 7.1.8 运行 hive_udtf_sql_runner.py,将 hive 的数据同步到 odps ........................................ 51 7.2 进阶功能..............0 码力 | 59 页 | 4.33 MB | 1 年前3尚硅谷大数据技术之Hadoop(入门)
2 Hadoop 发展历史(了解) Hadoop发展历史 1)Hadoop创始人Doug Cutting,为了实现与Google类似的全文搜索功能,他在Lucene框架基础上进行优 化升级,查询引擎和索引引擎。 Hadoop创始人Doug Cutting 2)2001年年底Lucene成为Apache基金会的一个子项目。 3)对于海量数据的场景,Lucene框架面对与Google同样 HDFS文件存储 HBase非关系型数据库 YARN资源管理 MapReduce离线计算 Spark Core内存计算 Hive 数据查询 Spark Mlib 数据挖掘 Spark Streaming 实时计算 Spark Sql 数据查询 Oozie任务调度 Azkaban任务调度 业务模型、数据可视化、业务应用 Z o o k e e p e r 数 据 平 台 配 置 它是一个适合于非结构化数据存储的数据库。 8)Hive:Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张 数据库表,并提供简单的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运 行。其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开 发专门的 MapReduce 应用,十分适合数据仓库的统计分析。 9)ZooK0 码力 | 35 页 | 1.70 MB | 1 年前3第1930期:Kubernetes基础介绍
对资源进行分配、调度、配置、部署等工作。 Lable就是给资源对象打一个标签,然后通过Label Secletor(标签选择器)查询和筛选拥有某些Label的资源对象, k8s通过这种方式实现了类似SQL的简单和通用的对象查询机制。 标签选择器可以类比SQL语句中的where查询条件,例如name=redis-salve 表示只查询名字为redis-salve的资源对 象。 env != production: 匹配所以不具有标签0 码力 | 49 页 | 4.11 MB | 1 年前3OpenShift Container Platform 4.7 日志记录
JSON 日志现在可以作为 JSON 对象(而不是带引号的字符串)转发到红帽受管 Elasticsearch 集 群或其他支持的第三方系统。另外,您现在可以从 Kibana 中的 JSON 日志消息查询各个字段, 从而增加特定日志的可发现性。(LOG-785, LOG-1148) 1.2.1.2. 弃用和 弃用和删 删除的功能 除的功能 之前版本中的一些功能已被弃用或删除。 弃用的功能仍然包含在 -35491)相关的序 列化 gadget 和输入之间的交互 Jackson-databind:错误处理与 com.oracle.wls.shaded.org.apache.xalan.lib.sql.JNDIConnectionPool(CVE-2020-35728) Jackson-databind:错误处理与 OpenShift Container Platform 4.7 日志 日志记录 DriverAdapterCPDS(CVE-2020-36182) Jackson-databind:错误处理序列化 gadgets 和输入与 org.docx4j.org.apache.xalan.lib.sql.JNDIConnectionPool(CVE-2020-36183) Jackson-databind:错误地处理与 org.apache.tomcat.dbcp.dbcp2.datasources0 码力 | 183 页 | 1.98 MB | 1 年前3大数据集成与Hadoop - IBM
要首先进行大数 据集成,所以企业必须确定如何优化整个企业的此类工作负载。 一个Hadoop与大数据集成的重要用例是将大型ETL工作负载 从企业数据仓库 (EDW) 卸载下来,以便降低成本并改善查询 服务水平协议 (SLA)。该用例会引发以下问题: • 企业是否应卸载EDW中的所有ETL工作负载? • 是否应将所有大数据集成工作负载都推送到Hadoop? • 在没有并行关系数据库管理系统 • 利用数据库执行加入/聚合 • 清除数据后效果最佳 • 释放ETL服务器上的计算周期 • 利用RDBMS服务器的多余容量 • 数据库可以较快地执行某些 流程 缺点 • 硬件和存储费用昂贵 • 查询SLA出现降级 • 并非所有ETL逻辑均可推送到 RDBMS(使用ETL工具或手 动编码) • 无法利用商业硬件 • 通常需要手动编码 • 复杂转换方面的限制 • 数据清理限制 • 数据库在执行某些流程时速 , 对于运行ETL的工作负载而言,EDW是一种非常昂贵的 平台。 • ETL工作负载会导致查询SLA降级,最终需要您额外投 资购买昂贵的EDW容量。 • 数据被转储到EDW之前未清理数据,一旦进入EDW环 境将永远无法进行清理工作,继而导致数据质量较差。 • 企业持续严重依赖手动编码SQL脚本来执行数据转换。 • 添加新数据源或修改现有ETL脚本较为昂贵并且需要很 长的时间,限制了快速响应最新需求的能力。0 码力 | 16 页 | 1.23 MB | 1 年前3Docker 从入门到实践 0.9.0(2017-12-31)
附录一:常见问题总结 附录二:热门镜像介绍 Ubuntu CentOS MySQL MongoDB Redis Nginx WordPress Node.js 附录三:Docker 命令查询 附录四:Dockerfile 最佳实践 附录五:资源链接 附录六:Docker 中文资源 6 Docker — 从入门到实践 0.9.0(2017-12-31) 修订说明:本书内容已基于 修订文字表达 发布繁体版本分支:zh-Hant 0.2.0: 2014-09-18 对照官方文档重写介绍、基本概念、安装、镜像、容器、仓库、数据管理、网络等 章节 添加底层实现章节 添加命令查询和资源链接章节 其它修正 0.1.0: 2014-09-05 添加基本内容 修正错别字和表达不通顺的地方 修订记录 12 如何贡献项目 领取或创建新的 Issue,如 issue 235,添加自己为 /var/lib/apt/lists/* CMD [ "curl", "-s", "http://ip.cn" ] 假如我们使用 docker build -t myip . 来构建镜像的话,如果我们需要查询当前公网 IP,只 需要执行: $ docker run myip 当前 IP:61.148.226.66 来自:北京市 联通 嗯,这么看起来好像可以直接把镜像当做命令使用了,不过命令总有参数,如果我们希望加0 码力 | 370 页 | 6.73 MB | 1 年前3Apache RocketMQ 从入门到实战
Consumer(消费消费者).客户端在同一 时间只会连接一台 nameserver,只有在连接出现异常时才会向尝试连接另外一台。客户 端每隔 30s 向 Nameserver 发起 topic 的路由信息查询。 温馨提示:Nameserver 是在内存中存储 Topic 的路由信息,持久化 Topic 路由信息 的地方是在 Broker 中,即${ ROCKETMQ_HOME}/store/config/topics 进行扩容、缩容是一件非 常寻常的事情,那如果新增一个消费者,该消费者消费哪些队列呢?这就涉及到消息消费队 列的重新分配,即消费队列重平衡机制。 在 RocketMQ 客户端中会每隔 20s 去查询当前 topic 的所有队列、消费者的个数,运 用队列负载算法进行重新分配,然后与上一次的分配结果进行对比,如果发生了变化,则进 行队列重新分配;如果没有发生变化,则忽略。 例如采取的分配算法如下图所示,现在增加一个消费者 消息过滤是指消费端可以根据某些条件对一个 topic 中的消息进行过滤,即只消费一个 主题下满足过滤条件的消息。 RocketMQ 目前主要的过滤机制是基于 tag 的过滤与基于消息属性的过滤,基于消息 属性的过滤支持 SQL92 表达式,对消息进行过滤。 六、小结 本文的主要目的是介绍 RocketMQ 常见的术语,例如 nameserver、broker、主题、 消费组、消费者、队列负载算法、队列重平衡机制、并发消费、顺序消费、消费进度存储、0 码力 | 165 页 | 12.53 MB | 1 年前3
共 226 条
- 1
- 2
- 3
- 4
- 5
- 6
- 23