pdf文档 Apache Kyuubi 1.9.0-SNAPSHOT Documentation

3.93 MB 220 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
Apache Kyuubi是一个分布式和多租户的网关,支持在数据仓库和湖仓上提供无服务器SQL服务。它构建在多种现代计算框架(如Spark、Flink、Doris等)之上,以查询分布式数据集。Kyuubi通过隐藏技术细节,简化了用户对数据处理和分析的操作,支持ETL和OLAP工作loads。其架构分为多层,支持组件松耦合,方便构建现代数据栈。Kyuubi Server处理客户端连接和执行请求,支持会话管理,包括轻量级和重量级会话创建。系统还提供了多种客户端接口,如JDBC、ODBC和RESTful API,确保数据和集群的安全性。
AI总结
以下是对《Apache Kyuubi 1.9.0-SNAPSHOT Documentation》的中文总结,重点突出核心观点和关键信息: --- ### 文档概述 Apache Kyuubi™ 是一个分布式和多租户的网关,提供无服务器(Serverless)SQL 功能,支持在数据仓库和数据湖上执行查询。它构建在多种现代计算框架之上,如 Apache Spark、Flink、Doris、Hive、Trino 和 StarRocks 等,能够从异构数据源的分布式集群中查询大规模数据集。 Kyuubi 隐藏了底层计算和存储的技术细节,使用户能够专注于业务逻辑。它为管理员提供了升级组件、优化工作负载、安全认证和审计等功能,同时支持零停机时间维护。 Kyuubi 的生态系统分为多层次,层与层之间松耦合,灵活组合,便于构建现代数据栈。例如,结合 Kyuubi、Spark 和 Iceberg,可以通过纯 SQL 实现数据湖仓(Data Lakehouse)的数据处理(如 ETL)和在线分析处理(OLAP),数据仅存储一份,使用统一的 SQL 接口完成所有工作负载。 --- ### 快速入门 1. **部署环境**: - 启动 Spark Standalone 集群: ```bash ./spark/sbin/start-master.sh -h -p 7077 --webui-port 9090 ./spark/sbin/start-worker.sh spark://:7077 ``` - 测试 Spark 和 Delta Lake 的连接性: ```scala // 生成随机数据并写入 Delta Lake val data = spark.range(1000, 2000) data.write.format("delta").mode("overwrite").save("wasbs://@.blob.core.windows.net/") // 读回数据验证 val df = spark.read.format("delta").load("wasbs://@.blob.core.windows.net/") df.show() ``` 2. **安装 Kyuubi**: - 下载最新版本:从 Kyuubi 下载页面获取。 - 解包安装: ```bash tar -xzvf apache-kyuubi-1.9.0-SNAPSHOT-bin.tgz ``` - 安装后目录结构包括:LICENSE、RELEASE、NOTICE、bin、conf、externals、jars、logs、pid 和 work 等文件组件。 --- ### 工作原理与架构 - **核心架构**: - Kyuubi 服务器负责处理客户端连接和执行请求,支持会话管理和操作执行。 - 会话分为轻量级和重量级两种情况,重量级会话适用于首次连接或长时间未连接的情况,以满足快速响应需求。 - Kyuubi 支持 SparkContext 的松耦合管理,SparkContext 可以在本地、Yarn 或 Kubernetes 集群中创建,并在高可用模式下共享。 - **设计理念**: - **无服务器架构**:隐藏底层复杂性,用户仅需关注 SQL 查询。 - **多框架支持**:基于 Spark SQL TEntity("(compute engines, fullWidth"),支持多种计算引擎。 - **高可用性**:SparkContext 实例可独立托管,提升系统的容错能力。 --- ### 客户端与接口 - **客户端支持**: - 提供多种接口:JDBC、ODBC、Thrift 和 RESTful API。 - 集成 BI 工具:支持 PowerBI 和 Tableau,但相关文档尚不完整。 - 使用示例: ```sql -- 新建表并插入数据 CREATE TABLE spark_catalog.default.SRC (KEY INT, VALUE STRING) USING PARQUET; INSERT INTO TABLE spark_catalog.default.SRC VALUES (11215016, 'Kent Yao'); -- 查询数据 SELECT KEY % 10 AS ID, SUBSTRING(VALUE, 1, 4) AS NAME FROM spark_catalog.default.SRC; -- 删除表 DROP TABLE spark_catalog.default.SRC; ``` - **安全管理**: - 支持 Kerberos 认证,提供集群和数据的安全保障。 --- ### 管理指南 - **配置与日志**: - 配置文件位于 `conf` 目录,包含默认配置模板和环境变量。 - 日志文件存储于 `logs` 目录,PID 文件存储于 `pid` 目录。 - **监控与维护**: - 支持通过 RESTful API 和 Web UI 进行监控和管理。 - 工作目录为 `work`,用于存储子进程的运行数据。 --- ### 总结 Apache Kyuubi 是一个功能强大的分布式 SQL 网关,支持多种计算引擎和数据源,通过无服务器架构为用户提供简便的数据处理和分析能力。其灵活的生态系统和高可用性设计使其适用于数据湖仓和大规模数据分析场景。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 213 页请下载阅读 -
文档评分
请文明评论,理性发言.