epub文档 Apache Kyuubi 1.8.0-rc1 Documentation

5.28 MB 429 页 0 评论
语言 格式 评分
英语
.epub
3
摘要
文档详细描述了Apache Kyuubi 1.8.0-rc1的功能、安装、配置和使用指南。Kyuubi是一个分布式和多租户的SQL网关,支持在数据仓库和湖仓中提供无服务器SQL服务。它通过与Apache Spark、Flink、Doris、Hive和Trino等现代计算框架集成,实现了对大量分布数据的查询。文档还介绍了Kyuubi的高可用性和负载均衡机制,包括通过Apache ZooKeeper和Curator实现的分布式协调。此外,文档涵盖了Kyuubi的发布流程、辅助SQL功能、性能优化规则以及与Apache Iceberg和Delta Lake的集成。
AI总结
### 《Apache Kyuubi 1.8.0-rc1 Documentation》总结 #### 安装与目录结构 1. **安装指南**: - 解压二进制包:`tar zxf apache-kyuubi-1.8.0-bin.tgz`。 - 目录结构包括:LICENSE、RELEASE、NOTICE、bin、conf、externals、jars、logs、pid和work等。 - conf目录内包含配置模板文件如`kyuubi-defaults.conf.template`、`kyuubi-env.sh.template`和`log4j2.properties.template`。 2. **依赖安装**: - 安装Spark,建议从官网下载最新稳定版本(3.1及以上)以支持Kyuubi的适配性优化。 #### 辅助SQL函数 - **Flink**: - `kyuubi_version`:返回Kyuubi Server版本,返回类型为`string`。 - `kyuubi_engine_name`:返回查询引擎的应用名称,返回类型为`string`。 - `kyuubi_engine_id`:返回查询引擎的应用ID,返回类型为`string`。 - `kyuubi_system_user`:返回关联查询引擎的系统用户名,返回类型为`string`。 - `kyuubi_session_user`:返回会话用户名,返回类型为`string`。 - **Spark**: - `kyuubi_version`:返回Kyuubi Server版本,返回类型为`string`。 - `engine_name`:返回Spark应用名称,返回类型为`string`。 - `engine_id`:返回Spark应用ID,返回类型为`string`。 - `system_user`:返回系统用户名,返回类型为`string`。 - `session_user`:返回会话用户名,返回类型为`string`。 - `engine_url`:返回引擎URL,返回类型为`string`。 #### 文档贡献指南 - 文档与代码基-scrollbar 同步维护,位于`github.com/apache/kyuubi`的`docs`子目录。 - 文档按照版本发布在Read The Docs平台,每个版本有独立页面。 - 鼓励社区贡献,包括编写、翻译、报告问题等。 - 文档风格指南涵盖了常见格式(如ReStructuredText和Markdown)和第三方引用等。 #### SQL优化规则 - **自动合并小文件**: - 解决Spark的小文件問題,特別是數據來源表和Hive表。 - 通过在寫入之前添加額外的 shuffle節點实现。 - 示例:在`INSERT INTO TABLE`查询中添加額外的 shuffle節點。 - **优化偏斜连接**: - Kyuubi通过在连接前添加额外的 shuffle節點,可以保证连接的标准化。 - 这样可以优化`OptimizeSkewedJoin`的性能。 - **阶段级配置隔离**: - 解决Spark AQE中`spark.sql.adaptive.advisoryPartitionSizeInBytes`配置的冲突。 - 通过分阶段配置实现,允许前期阶段使用更小的Partition Size,後期階段使用更大的大小。 #### 发布指南 1. **发布流程**: - 包括決定發布、准备發布、切分支、構建候選版本、投票、 sửa问题、最終確認、推广發布等步驟。 - 由 Release Manager 負責,發布需通過社區公開投票批准。 2. **注意事项**: - 發布過程中需遵守 Apache 基金會的產品釋放政策和發布分發政策。 #### 核心功能概述 - **多租戶支持**: - 提供端到端的多租戶隔離和共享功能。 - **高可用性**: - 支持通过Apache Zookeeper和Curator实现高可用性和負載平衡。 - **數據湖與湖坊訪問**: - 支持Apache Iceberg,提供高性能數據格式訪問。 - 通過SQL標準化訪問,提供身份驗證和授權功能。 - **計算引擎支持**: - 支持 Apache Spark、Flink、Doris、Hive、Trino 等計算引擎。 #### 關鍵組件和技術 - **Apache Iceberg**: - 提供高性能表格格式,支持 Trino 和 Spark。 - **Apache Zookeeper**: - 提供高可靠性分散式協調服務。 - **Apache Curator**: - 提供 Zookeeper 的高級 API 框架和 hữu ích rapide,支持服務發現和 Java 8 异步 DSL。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 422 页请下载阅读 -
文档评分
请文明评论,理性发言.