Apache Kyuubi 1.5.2 Documentation

语言	格式	评分
英语	.epub	3
摘要
Apache Kyuubi 1.5.2是一个基于Apache Spark构建的统一多租户JDBC接口，用于大规模数据处理和分析。文档介绍了Kyuubi的生态系统架构，包括与Spark Thrift JDBC/ODBC Server的对比。核心功能包括：支持多租户，实现端到端的用户隔离和访问控制；通过Zookeeper提供高可用性和负载均衡；支持多种客户端工具如Hive Beeline、DBeaver等；可集成Apache Iceberg等数据湖技术。文档还详细说明了配置方法，包括环境变量配置在kyuubi-env.sh中，Kyuubi属性配置在kyuubi-defaults.conf中，以及Hadoop和Hive的相关配置。部署方面，支持伪模式（内嵌Zookeeper）和生产模式（外部Zookeeper集群）。系统通过日志系统（Log4j）和服务器指标进行监控。
AI总结
Apache Kyuubi 是一个基于 Apache Spark 的统一多租户 JDBC 接口，用于大规模数据处理和分析。其核心特点包括： - 多租户：支持多客户端并发访问和认证，采用“每个账户一个 Spark 应用”（SPA）策略，实现资源隔离和访问控制。 - 高可用性：基于 ZooKeeper 提供高可用和负载均衡解决方案。支持伪模式（内嵌 ZooKeeper）和生产模式（外部 ZooKeeper 集群）。 - 高并发：可通过增减 Kyuubi 服务器实例轻松扩展。 - 平滑升级：支持优雅停止，允许在引擎依赖变更时无缝重启。文档主要结构包括： 1. 快速入门：涵盖安装、运行、使用 Hive Beeline、DBeaver、DataGrip、Hue 等客户端工具的步骤。 2. 部署：包括基础配置（环境变量、Kyuubi 配置、Hadoop/Hive 配置）、引擎配置以及高可用部署模式。 3. 安全：涉及认证、Kerberos、Hadoop 凭证管理和 ACL。 4. 客户端文档：指导如何使用 Hive JDBC/ODBC 驱动连接 Kyuubi。 5. 集成：支持与 Apache Kudu、Delta Lake 等数据湖技术集成。 6. 监控：包括日志系统（基于 Log4j 2）和服务器指标。 7. SQL 参考：提供 Spark SQL 的辅助扩展和函数。 8. 工具与贡献指南：包含开发工具、构建、测试、调试以及社区贡献流程。配置方面，环境变量通过 `kyuubi-env.sh` 设置，Kyuubi 属性通过 `kyuubi-defaults.conf` 配置，Hadoop 和 Hive 配置可通过指定目录或 Spark 属性前缀继承。日志使用 Log4j 2，可在 `log4j2.properties` 中配置。