morningman commented on a change in pull request #3938:
URL: https://github.com/apache/incubator-doris/pull/3938#discussion_r446146056
##########
File path: docs/zh-CN/administrator-guide/load-data/spark-load-manual.md
##########
@@ -45,6 +45,7 @@ Spark load 是一种异步导入方式,用户需要通过 MySQL 协议创建 S
2. Backend(BE):Doris 系统的计算和存储节点。在导入流程中主要负责数据写入及存储。
3. Spark ETL:在导入流程中主要负责数据的 ETL 工作,包括全局字典构建(BITMAP类型)、分区、排序、聚合等。
4. Broker:Broker 为一个独立的无状态进程。封装了文件系统接口,提供 Doris 读取远端存储系统中文件的能力。
+5. 全局字典: 保存了数据从原始值到编码值映射的数据结构,原始值可以是任意数据类型,而编码后的值为整型;全局字典主要应用于精确去重预计算的场景。
Review comment:
浮点类型应该不支持吧?
##########
File path: docs/zh-CN/administrator-guide/load-data/spark-load-manual.md
##########
@@ -88,16 +89,27 @@ Spark load 任务的执行主要分为以下5个阶段。
-### 全局字典
+## 全局字典
+### 适用场景
+目前Doris中Bitmap列是使用类库```Roaringbitmap```实现的,而```Roaringbitmap```的输入数据类型只能是整型,因此如果要在导入流程中实现对于Bitmap列的预计算,那么就需要将输入数据的类型转换成整型。
-待补
-
-
-
-### 数据预处理(DPP)
-
-待补
+在Doris现有的导入流程中,全局字典的数据结构是基于Hive表实现的,保存了原始值到编码值的映射。
+### 构建流程
+1. 读取上游数据源的数据,生成一张hive临时表,记为hive_table。
Review comment:
```suggestion
1. 读取上游数据源的数据,生成一张hive临时表,记为 `hive_table`。
```
带有下划线的应为需要加反引号,否则 markdown会识别为斜体,下同
----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.
For queries about this service, please contact Infrastructure at:
[email protected]
---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]