Apache Kyuubi 1.6.1 Documentation

语言	格式	评分
英语	.pdf	3
摘要
文档详细介绍了Apache Kyuubi 1.6.1的安装、配置和使用方法。Kyuubi是一个基于Apache Spark构建的统一多租户JDBC接口，支持与多种数据源的交互。文档涵盖了环境变量配置、系统设置、高可用性解决方案以及与Hive和Spark的集成。此外，还提供了如何通过JDBC驱动连接Kyuubi服务器的指导，并介绍了Kyuubi的SQL扩展功能，以优化查询性能。
AI总结
# Apache Kyuubi 1.6.1 文档总结 ## 1. 版本升级指南 ### 1.1 从 1.6.0 升级到 1.6.1 - 注意事项：从 Kyuubi 1.6.1 开始，`kyuubi.ha.zookeeper.engine.auth.type` 不再回退到 `kyuubi.ha.zookeeper.auth.type`。在与 Zookeeper 进行 Kerberos 认证时，用户需要显式设置 `kyuubi.ha.zookeeper.engine.auth.type` 为 `KERBEROS`。 ### 1.2 从 1.5 升级到 1.6 - 配置变化：Kyuubi 引擎不再从 `kyuubi.kui.principal` 和 `kyuubi.kui.keytab` 中读取 Zookeeper 的凭据信息，以提高安全性。用户需要显式设置 `kyuubi.ha.zookeeper.auth.principal` 和 `kyuubi.ha.zookeeper.auth.keytab`。 ## 2. 配置指南 ### 2.1 环境变量配置 - 文件位置：在 `$KYUUBI_HOME/conf/kyuubi-env.sh` 中配置环境变量，如 `JAVA_HOME`。 - 子进程环境配置：可以在子进程的环境配置文件（如 `$SPARK_HOME/conf/spark-env.sh`）中设置更具体的环境变量。 ### 2.2 Kyuubi 配置文件 - 配置文件位置：在 `$KYUUBI_HOME/conf/kyuubi-defaults.conf` 中配置 Kyuubi 属性。 - 示例： ```properties kyuubi.authentication=NONE kyuubi.frontend.bind.host=localhost kyuubi.frontend.bind.port=10009 ``` ## 3. 安装与部署 ### 3.1 安装 - 步骤：解压 tarball： ```bash tar zxf apache-kyuubi-1.6.1-incubating-bin.tgz ``` - 结果目录：生成子目录 `apache-kyuubi-1.6.1-incubating-bin`。 ### 3.2 配置 - 环境变量：设置 `HADOOP_CONF_DIR` 和 `YARN_CONF_DIR` 等变量。 - Java 选项：通过 `KYUUBI_JAVA_OPTS` 和 `KYUUBI_BEELINE_OPTS` 设置 JVM 参数。 ### 3.3 启动 - 启动命令： ```bash bin/kyuubi start ``` - 日志检查：通过日志获取 JDBC 连接 URL，格式为 `jdbc:hive2://HOST:10009/`。 ## 4. 客户端与工具 ### 4.1 JDBC 驱动 - 新功能：从 1.4.0 版本开始，Kyuubi 提供自定义的 Hive JDBC 驾驶模块，支持多目录和元数据 API。 ### 4.2 kyuubi-admin 工具 - 用途：用于管理员对 Kyuubi 服务或集群执行维护操作。 - 使用方法： ```bash bin/kyuubi-admin --help ``` ### 4.3 REST 和 Thrift 接口 - 功能：提供标准的 REST 和 Thrift 接口，支持多种语言开发。 ## 5. 扩展功能 ### 5.1 服务器端扩展 - 功能：允许管理员扩展 Kyuubi 服务器的功能，如注入自定义配置。 ### 5.2 引擎端扩展 - 功能：允许用户动态加载插件，扩展 Kyuubi 引擎的功能。 ## 6. 高可用性与负载均衡 - 基于 Zookeeper：提供高可用性和负载均衡解决方案。 ## 7. 辅助优化规则 - 支持版本：仅支持 Apache Spark 3.1.x 版本。 - 优化功能： - 小文件合并：通过增加 Shuffle 阶段自动合并小文件。 - 优化倾斜连接：在连接前插入 Shuffle 节点，确保优化倾斜连接。 - 配置隔离：在 AQE 中实现阶段级别的配置隔离。 ## 8. 测试与验证 - 工具：使用 `beeline` 工具测试连接： ```bash ./bin/beeline -u 'jdbc:hive2://:10009/' ``` - 监控：通过 Spark UI 监控引擎运行状态。 ## 9. 术语 - Kyuubi：统一的多租户 JDBC 接口，基于 Apache Spark，支持大规模数据处理和分析。 - JDBC：Java 数据库连接 API，用于 Java 程序与数据库的交互。 ## 10. 附录 - 术语表：详细解释相关术语和组件。