Apache Kyuubi 1.5.1 Documentation

语言	格式	评分
英语	.epub	3
摘要
该文档为Apache Kyuubi 1.5.1的技术文档，Kyuubi是基于Apache Spark构建的统一多租户JDBC接口，用于大规模数据处理和分析。文档涵盖了Kyuubi的快速入门指南、开发工具（包括使用Maven构建、运行测试、调试）、配置说明（包括Hadoop和Hive配置、Kyuubi自身配置）、以及版本发布流程（包括发布候选、推广发布、删除废弃目录等）。Kyuubi支持多客户端并发与认证、每个用户的Spark应用隔离、队列/命名空间访问控制列表以及元数据和数据访问控制列表。文档还包含了术语附录，解释了Kyuubi、JDBC、Server、Engine、多租户、高可用性/负载均衡、数据湖（如Apache Iceberg、Delta Lake、Apache Hudi）等概念。
AI总结
Apache Kyuubi 1.5.1 是一个基于 Apache Spark 的统一多租户 JDBC 接口，用于大规模数据处理和分析。其核心架构采用 Kyuubi Server 与 Engine 的松耦合设计，显著提升了并发能力和服务稳定性。核心特性与功能： - 多租户支持：支持端到端的多租户，包括多客户端并发、身份认证、每个用户一个 Spark 应用（SPA）策略、队列/命名空间访问控制列表（ACL）以及元数据和数据 ACL。 - 生态系统：可结合 Spark、Apache Iceberg 等工具，通过纯 SQL 实现数据湖构建与管理，覆盖 ETL 和 BI 等多种工作负载。开发与构建工具： - 基于 Apache Maven 构建，可通过命令 `./build/mvn clean package -DskipTests` 构建所有子模块。 - 支持单独构建子模块（如 `kyuubi-common`）或跳过特定模块。 - 支持针对不同 Apache Spark 版本进行构建。配置说明： - 日志：使用 Log4j 2 进行日志记录，配置文件位于 `$KYUUBI_HOME/conf/log4j2.properties`。 - Hadoop 配置：通过设置 `HADOOP_CONF_DIR` 环境变量或使用 `spark.hadoop.` 前缀的 Spark 属性来继承 Hadoop 集群配置。 - Hive 配置：SQL 引擎应用与 Hive 元存储通信的配置，可通过 `hive-site.xml` 或 `spark.hadoop.` 前缀的 Spark 属性进行设置。 - Kyuubi 配置：核心配置位于 `$KYUUBI_HOME/conf/kyuubi-defaults.conf`，例如可设置认证方式、绑定地址和端口等。快速入门： - 支持通过多种客户端工具连接，包括 Hive Beeline、DBeaver、DataGrip 和 Cloudera Hue。 - 提供了在 Kubernetes 上使用 Helm 部署 Kyuubi 的指南。附录与发布指南： - 定义了术语，如 Kyuubi Server、Engine、多租户和高可用性/负载均衡。 - 提供了发布流程，包括在 Maven 中央仓库发布、更新网站文档以及创建发布公告的详细步骤。