Apache Kyuubi 1.8.0-rc1 Documentation
5.28 MB
429 页
0 评论
语言 | 格式 | 评分 |
---|---|---|
英语 | .epub | 3 |
摘要 | ||
文档详细描述了Apache Kyuubi 1.8.0-rc1的功能、安装、配置和使用指南。Kyuubi是一个分布式和多租户的SQL网关,支持在数据仓库和湖仓中提供无服务器SQL服务。它通过与Apache Spark、Flink、Doris、Hive和Trino等现代计算框架集成,实现了对大量分布数据的查询。文档还介绍了Kyuubi的高可用性和负载均衡机制,包括通过Apache ZooKeeper和Curator实现的分布式协调。此外,文档涵盖了Kyuubi的发布流程、辅助SQL功能、性能优化规则以及与Apache Iceberg和Delta Lake的集成。 | ||
AI总结 | ||
### 《Apache Kyuubi 1.8.0-rc1 Documentation》总结
#### 安装与目录结构
1. **安装指南**:
- 解压二进制包:`tar zxf apache-kyuubi-1.8.0-bin.tgz`。
- 目录结构包括:LICENSE、RELEASE、NOTICE、bin、conf、externals、jars、logs、pid和work等。
- conf目录内包含配置模板文件如`kyuubi-defaults.conf.template`、`kyuubi-env.sh.template`和`log4j2.properties.template`。
2. **依赖安装**:
- 安装Spark,建议从官网下载最新稳定版本(3.1及以上)以支持Kyuubi的适配性优化。
#### 辅助SQL函数
- **Flink**:
- `kyuubi_version`:返回Kyuubi Server版本,返回类型为`string`。
- `kyuubi_engine_name`:返回查询引擎的应用名称,返回类型为`string`。
- `kyuubi_engine_id`:返回查询引擎的应用ID,返回类型为`string`。
- `kyuubi_system_user`:返回关联查询引擎的系统用户名,返回类型为`string`。
- `kyuubi_session_user`:返回会话用户名,返回类型为`string`。
- **Spark**:
- `kyuubi_version`:返回Kyuubi Server版本,返回类型为`string`。
- `engine_name`:返回Spark应用名称,返回类型为`string`。
- `engine_id`:返回Spark应用ID,返回类型为`string`。
- `system_user`:返回系统用户名,返回类型为`string`。
- `session_user`:返回会话用户名,返回类型为`string`。
- `engine_url`:返回引擎URL,返回类型为`string`。
#### 文档贡献指南
- 文档与代码基-scrollbar 同步维护,位于`github.com/apache/kyuubi`的`docs`子目录。
- 文档按照版本发布在Read The Docs平台,每个版本有独立页面。
- 鼓励社区贡献,包括编写、翻译、报告问题等。
- 文档风格指南涵盖了常见格式(如ReStructuredText和Markdown)和第三方引用等。
#### SQL优化规则
- **自动合并小文件**:
- 解决Spark的小文件問題,特別是數據來源表和Hive表。
- 通过在寫入之前添加額外的 shuffle節點实现。
- 示例:在`INSERT INTO TABLE`查询中添加額外的 shuffle節點。
- **优化偏斜连接**:
- Kyuubi通过在连接前添加额外的 shuffle節點,可以保证连接的标准化。
- 这样可以优化`OptimizeSkewedJoin`的性能。
- **阶段级配置隔离**:
- 解决Spark AQE中`spark.sql.adaptive.advisoryPartitionSizeInBytes`配置的冲突。
- 通过分阶段配置实现,允许前期阶段使用更小的Partition Size,後期階段使用更大的大小。
#### 发布指南
1. **发布流程**:
- 包括決定發布、准备發布、切分支、構建候選版本、投票、 sửa问题、最終確認、推广發布等步驟。
- 由 Release Manager 負責,發布需通過社區公開投票批准。
2. **注意事项**:
- 發布過程中需遵守 Apache 基金會的產品釋放政策和發布分發政策。
#### 核心功能概述
- **多租戶支持**:
- 提供端到端的多租戶隔離和共享功能。
- **高可用性**:
- 支持通过Apache Zookeeper和Curator实现高可用性和負載平衡。
- **數據湖與湖坊訪問**:
- 支持Apache Iceberg,提供高性能數據格式訪問。
- 通過SQL標準化訪問,提供身份驗證和授權功能。
- **計算引擎支持**:
- 支持 Apache Spark、Flink、Doris、Hive、Trino 等計算引擎。
#### 關鍵組件和技術
- **Apache Iceberg**:
- 提供高性能表格格式,支持 Trino 和 Spark。
- **Apache Zookeeper**:
- 提供高可靠性分散式協調服務。
- **Apache Curator**:
- 提供 Zookeeper 的高級 API 框架和 hữu ích rapide,支持服務發現和 Java 8 异步 DSL。 |
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
422 页请下载阅读 -
文档评分