搜索

pdf文档 百度智能云 Apache Doris 文档

1.75 MB 203 页 6 下载 244 浏览 0 评论 0 收藏
语言 格式 评分
中文(简体)
.pdf
3
摘要
文档详细介绍了百度智能云 Apache Doris 的功能和操作,包括例行导入(Routine Load)、数据导出、表的创建与管理、备份恢复等。文档涵盖 SQL 操作语法、数据类型、函数、分区和分桶策略、动态分区管理、物化视图创建、导入事务与原子性、错误数据过滤、严格模式设置、超时时间管理、数据量限制以及最佳实践等内容,帮助用户高效管理和操作 Doris 数据库。
AI总结
### 文档总结 《百度智能云 Apache Doris 文档》主要介绍了 Doris 的核心功能、语法以及最佳实践,涵盖数据导入、导出、备份与恢复、表设计、分区管理、物化视图、索引优化等方面。以下是文档的核心内容和关键信息: --- #### 1. **性能问题** - **单行插入**:不建议使用 `VALUES` 方式进行单行插入,建议将多行数据合并到一个 `INSERT` 语句中进行批量提交。 - **批量处理**:通过批量操作减少 IO 次数,提升性能。 --- #### 2. **例行导入(Routine Load)** - **功能**:支持从指定数据源(目前仅支持 Kafka)批量导入 CSV 或 JSON 格式数据。 - **语法**: ```sql CREATE ROUTINE LOAD [db.]job_name ON tbl_name [merge_type] [load_properties] [job_properties] FROM data_source [data_source_properties]; ``` - `job_name`:作业名称,同一数据库内唯一。 - `tbl_name`:目标表名。 - `merge_type`:数据合并类型(默认为 `APPEND`,支持 `MERGE` 和 `DELETE`)。 - `load_properties`:描述导入数据的属性,包括列分隔符、列映射、过滤条件等。 - `job_properties`:作业属性,如超时时间、错误容忍率等。 - **认证**:目前仅支持无认证或 SSL 认证方式。 --- #### 3. **SQL 语句** - **数据类型**:支持 `TINYINT`、`SMALLINT`、`INT`、`BIGINT`、`FLOAT`、`DOUBLE`、`VARCHAR`、`DATETIME` 等。 - **字面常量**:支持数字、字符串、日期等类型,字符串支持转义字符,日期支持 `YYYY-MM-DD` 或 `YYYY-MM-DD HH:MM:SS` 格式。 - **操作符**:包括算术、比较、逻辑等操作符。 - **内置函数**:支持聚合函数、字符串函数、数学函数、日期函数、JSON 解析函数等。 --- #### 4. **数据导出** - **导出到文件存储**: ```sql SELECT k1 FROM tbl1 UNION SELECT k2 FROM tbl1 INTO OUTFILE 'bos://bucket/result_' PROPERTIES ( "broker.name" = "my_broker", "broker.bos_endpoint" = "http://bj.bcebos.com", "success_file_name" = "SUCCESS" ); ``` - 支持导出到文件存储(如 Bos),生成多个文件(若数据量较大)。 - 可通过 `success_file_name` 参数生成成功标识文件。 - **导出到本地磁盘**: ```sql SELECT k1 FROM tbl1 UNION SELECT k2 FROM tbl1 INTO OUTFILE 'file:///local/path/result_' PROPERTIES ( "column_separator" = "", "line_delimiter" = "\n", "max_file_size" = "100MB" ); ``` - 仅适用于私有化部署,需确保路径权限。 - **结果完整性**:导出命令是同步的,若连接断开,需通过 `success_file_name` 判断导出是否完成。 --- #### 5. **备份与恢复** - **备份**: ```sql BACKUP SNAPSHOT [db_name.]snapshot_name TO `repository_name` ON ( `table_name` [PARTITION (`p1`, ...)], ...) PROPERTIES ( "key" = "value", ... ); ``` - 异步操作,支持备份 OLAP 类型表。 - 可通过 `SHOW BACKUP` 查看备份进度。 - **仓库管理**: - 创建仓库:`CREATE [READ ONLY] REPOSITORY `repo_name` WITH BROKER `bos` ON LOCATION `repo_location` PROPERTIES (...);` - 删除仓库:`DROP REPOSITORY repo_name;` --- #### 6. **表设计与优化** - **分区和分桶**: - 表必须指定分桶列,可选分区。 - 分区列和分桶列在创建后不可修改。 - **动态分区**:支持自动增删分区,通过时间单位(如 `DAY`)和范围规则管理分区。 - **物化视图(ROLLUP)**: - 在建表时或之后创建物化视图,加速查询。 - 示例: ```sql CREATE TABLE example_db.rolup_index_table ( event_day DATE, siteid INT, ... ) AGGREGATE KEY(...) ROLLUP (r1(event_day.siteid), r2(event_day.citycode), r3(event_day)); ``` - **索引**:支持列索引,可在建表时或之后添加。 --- #### 7. **导入事务与原子性** - **原子性**:单个导入任务中对多表的导入保证原子性。 - **Label 机制**:通过 `LOAD LABEL` 确保数据导入的不丢不重。 - **错误容忍**:支持 `max_filter_ratio` 参数跳过格式错误数据行。 --- #### 8. **最佳实践** - **分区与分桶设计**:根据查询需求合理设计分区和分桶列。 - **动态分区管理**:通过动态分区规则自动管理历史数据。 - **物化视图与索引**:合理使用物化视图和索引加速查询,但需注意对导入效率的影响。 - **导入任务管理**:控制并发任务数,避免资源争抢。 - **数据安全**:导出和备份操作需谨慎处理文件路径和权限。 --- ### 总结 文档全面介绍了 Doris 的核心功能和使用方法,重点突出了数据导入、导出、备份与恢复、表设计等关键操作,并提供了详细的语法示例和最佳实践。通过合理使用 Doris 的功能,可以显著提升数据处理效率和系统性能。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 196 页请下载阅读 -
文档评分
请文明评论,理性发言.