[GitHub] [incubator-doris] EmmyMiao87 commented on a change in pull request #1558: Modify load docs

GitBox Sat, 27 Jul 2019 06:35:00 -0700

EmmyMiao87 commented on a change in pull request #1558: Modify load docs
URL: https://github.com/apache/incubator-doris/pull/1558#discussion_r307964867


 ##########
 File path: 
docs/documentation/cn/administrator-guide/load-data/broker-load-manual.md
 ##########
 @@ -1,386 +1,451 @@
 # Broker Load
-Broker load 是一个异步的导入方式，主要支持的数据源有 HDFS, BOS, AFS。用户需要通过 Mysql client 创建 Broker 
load 导入，并通过查看导入命令检查导入结果。
 
-Broker load 主要适用于源数据在文件系统中的，或者是超大文件导入的需求。
+Broker load 是一个异步的导入方式，支持的数据源取决于 Broker 进程支持的数据源。
 
-# 名词解释
-1. HDFS: Hadoop 分布式文件系统。用户的待导入数据可能存放的位置。
-2. BOS：百度云提供的对象存储系统，百度云上的 Palo 用户的待导入数据可能存放的位置。
-3. AFS：百度内部提供的超大规模文件系统，百度厂内的 Palo 用户的待导入数据可能存放的位置。
-4. plan：导入执行计划，BE 会执行导入执行计划将数据导入到 Doris 系统中。
-5. Broker：Doris 系统中负责读取外部文件系统数据的组件。
-6. backend（BE）：Doris 系统的计算和存储节点。在导入流程中主要负责数据的 ETL 和存储。
-7. frontend（FE）：Doris 系统的元数据和调度节点。在导入流程中主要负责导入 plan 生成和导入任务的调度工作。 
+用户需要通过 MySQL 协议 创建 Broker load 导入，并通过查看导入命令检查导入结果。
 
-# 基本原理
+## 适用场景
 
-用户在提交导入任务后，FE 会生成对应的 plan 并根据目前 BE 的个数和文件的大小，将 plan 分给 多个 BE 执行，每个 BE 
执行一部分导入数据。
+* 源数据在 Broker 可以访问的存储系统中，如 HDFS。
+* 数据量在 几十到百GB 级别。
 
-BE 在执行的过程中会从 Broker 拉取数据，在对数据 transform 之后将数据导入系统。所有 BE 均完成导入，并且事务被 publish 
后，导入完成。
+## 名词解释
+
+1. Frontend（FE）：Doris 系统的元数据和调度节点。在导入流程中主要负责导入 plan 生成和导入任务的调度工作。
+2. Backend（BE）：Doris 系统的计算和存储节点。在导入流程中主要负责数据的 ETL 和存储。
+3. Broker：Broker 为一个独立的无状态进程。封装了文件系统接口，提供 Doris 读取远端存储系统中文件的能力。
+4. Plan：导入执行计划，BE 会执行导入执行计划将数据导入到 Doris 系统中。
+ 
+## 基本原理
+
+用户在提交导入任务后，FE 会生成对应的 Plan 并根据目前 BE 的个数和文件的大小，将 Plan 分给 多个 BE 执行，每个 BE 
执行一部分导入数据。
+
+BE 在执行的过程中会从 Broker 拉取数据，在对数据 transform 之后将数据导入系统。所有 BE 均完成导入，由 FE 最终决定导入是否成功。
 
 ```
                  +
-                 | user create broker load
+                 | 1. user create broker load
                  v
             +----+----+
             |         |
             |   FE    |
             |         |
             +----+----+
                  |
-                 |    BE etl and load the data
+                 | 2. BE etl and load the data
     +--------------------------+
     |            |             |
 +---v---+     +--v----+    +---v---+
 |       |     |       |    |       |
 |  BE   |     |  BE   |    |   BE  |
 |       |     |       |    |       |
-+---+---+     +---+---+    +----+--+
-    |             |             |
-    |             |             | pull data from broker
-+---v---+     +---v---+    +----v--+
++---+-^-+     +---+-^-+    +--+-^--+
+    | |           | |         | |
+    | |           | |         | | 3. pull data from broker
++---v-+-+     +---v-+-+    +--v-+--+
 |       |     |       |    |       |
 |Broker |     |Broker |    |Broker |
 |       |     |       |    |       |
-+-------+--+  +---+---+    ++------+
-           |      |         |
-           |      |         |
-         +-v------v---------v--+
-         |HDFS/BOS/AFS cluster |
-         |                     |
-         +---------------------+
++---+-^-+     +---+-^-+    +---+-^-+
+    | |           | |          | |
++---v-+-----------v-+----------v-+-+
+|       HDFS/BOS/AFS cluster       |
+|                                  |
++----------------------------------+
 
 ```
 
-# 基本操作
-## 创建导入
+## 基本操作
+
+### 创建导入
 
 Broker load 创建导入语句
 
-```
-语法
-LOAD LABEL load_label 
-       (data_desc, ...)
-       with broker broker_name broker_properties
-       [PROPERTIES (key1=value1, ... )]
+语法：
 
-LABEL: db_name.label_name
+```
+LOAD LABEL db_name.label_name 
+(data_desc, ...)
+WITH BROKER broker_name broker_properties
+[PROPERTIES (key1=value1, ... )]
 
-data_desc:
-       DATA INFILE ('file_path', ...)
-       [NEGATIVE]
-       INTO TABLE tbl_name
-       [PARTITION (p1, p2)]
-       [COLUMNS TERMINATED BY separator ]
-       [(col1, ...)]
-       [SET (k1=f1(xx), k2=f2(xx))]
+* data_desc:
 
-broker_name: string
+    DATA INFILE ('file_path', ...)
+    [NEGATIVE]
+    INTO TABLE tbl_name
+    [PARTITION (p1, p2)]
+    [COLUMNS TERMINATED BY separator ]
+    [(col1, ...)]
+    [SET (k1=f1(xx), k2=f2(xx))]
 
-broker_properties: (key1=value1, ...)
+* broker_properties: 
 
+    (key1=value1, ...)
+```
 示例：
-load label test.int_table_01
-       (DATA INFILE("hdfs://abc.com:8888/user/palo/test/ml/id_name") into 
table id_name_table columns terminated by "," (tmp_c1,tmp_c2) set (id=tmp_c2, 
name=tmp_c1))  
-       with broker 'broker' ("username"="root", "password"="3trqDWfl") 
-       properties ("timeout" = "10000" );
+
+```
+LOAD LABEL db1.label1
+(
+    DATA INFILE("hdfs://abc.com:8888/user/palo/test/ml/file1")
+    INTO TABLE tbl1
+    COLUMNS TERMINATED BY ","
+    (tmp_c1,tmp_c2)
+    SET
+    (
+        id=tmp_c2,
+        name=tmp_c1)
+    ),
+    DATA INFILE("hdfs://abc.com:8888/user/palo/test/ml/file2")
+    INTO TABLE tbl2
+    COLUMNS TERMINATED BY ","
+    (col1, col2)
+)
+WITH BROKER 'broker'
+(
+    "username"="user",
+    "password"="pass"
+)
+PROPERTIES
+(
+    "timeout" = "3600"
+);
 
 ```
 
-创建导入的详细语法执行 ``` HELP BROKER LOAD；``` 查看语法帮助。这里主要介绍 Broker load 
的创建导入语法中参数意义和注意事项。
+创建导入的详细语法执行 ```HELP BROKER LOAD``` 查看语法帮助。这里主要介绍 Broker load 的创建导入语法中参数意义和注意事项。
 
-+ label
+#### Label
 
-       导入任务的标识。每个导入任务，都有一个在单 database 内部唯一的 label。label 是用户在导入命令中自定义的名称。通过这个 
label，用户可以查看对应导入任务的执行情况。
-       
-       label 
的另一个作用，是防止用户重复导入相同的数据。**强烈推荐用户同一批次数据使用相同的label。这样同一批次数据的重复请求只会被接受一次，保证了 At most 
once**
-       
-       当 label 对应的导入作业状态为 CANCELLED 时，该 label 可以再次被使用。
+导入任务的标识。每个导入任务，都有一个在单 database 内部唯一的 Label。Label 是用户在导入命令中自定义的名称。通过这个 
Label，用户可以查看对应导入任务的执行情况。
+    
+Label 的另一个作用，是防止用户重复导入相同的数据。**强烈推荐用户同一批次数据使用相同的label。这样同一批次数据的重复请求只会被接受一次，保证了 
At-Most-Once 语义**
+    
+当 Label 对应的导入作业状态为 CANCELLED 时，可以再次使用该 Label 提交导入作业。
 
-### 数据描述类参数
+#### 数据描述类参数
 
 数据描述类参数主要指的是 Broker load 创建导入语句中的属于 ```data_desc``` 部分的参数。每组 ```data_desc ``` 
主要表述了本次导入涉及到的数据源地址，ETL 函数，目标表及分区等信息。
 
 下面主要对数据描述类的部分参数详细解释：
 
-+  多表导入
++ 多表导入
 
-       Broker load 支持一次导入任务涉及多张表，每个 Broker load 导入任务可在多个 ``` data_desc ``` 
声明多张表来实现多表导入。每个单独的 ```data_desc``` 还可以指定属于该表的数据源地址。Broker load 
保证了单次导入的多张表之间原子性成功或失败。
+    Broker load 支持一次导入任务涉及多张表，每个 Broker load 导入任务可在多个 ``` data_desc ``` 
声明多张表来实现多表导入。每个单独的 ```data_desc``` 还可以指定属于该表的数据源地址。Broker load 
保证了单次导入的多张表之间原子性成功或失败。
 
-+  negative
++ negative
 
-       
```data_desc```中还可以设置数据取反导入。这个功能主要用于，当用户上次导入已经成功，但是想取消上次导入的数据时，就可以使用相同的源文件并设置导入 
nagetive 取反功能。上次导入的数据就可以被撤销了。
+    ```data_desc```中还可以设置数据取反导入。这个功能主要用于，当数据表中聚合列的类型都为 SUM 
类型时。如果希望撤销某一批导入的数据。则可以通过 `negative` 参数当如同一批数据。Doris 
会自动为这一批数据在聚合列上数据取反，以达到消除同一批数据的功能。
+    
++ partition
 
-       该功能仅对聚合类型为 SUM 的列有效。聚合列数值在取反导入后会根据待导入数据值，不断递减。
-       
-+ Partition
+    在 ```data_desc``` 中可以指定待导入表的 partition 信息，如果待导入数据不属于指定的 partition 
则不会被导入。同时，不在指定 Partition 的数据会被认为是错误数据。
+       
+#### 导入作业参数
 
-       在 ``` data_desc ``` 中可以指定待导入表的 Partition 信息，如果待导入数据不属于指定的 Partition 
则不会被导入。这些数据将计入 ```dpp.abnorm.ALL ```
-       
-### 导入任务参数
+导入作业参数主要指的是 Broker load 创建导入语句中的属于 ```opt_properties```部分的参数。导入作业参数是作用于整个导入作业的。
 
-导入任务参数主要指的是 Broker load 创建导入语句中的属于 
```opt_properties```部分你的参数。导入任务参数是作用于整个导入任务的。
-
-下面主要对导入任务参数的部分参数详细解释：
+下面主要对导入作业参数的部分参数详细解释：
 
 + timeout
-       
-       导入任务的超时时间(以秒为单位)，用户可以在```opt_properties```中自行设置每个导入的超时时间。导入任务在设定的 
timeout 时间内未完成则会被系统取消，变成 CANCELLED。Broker load 的默认导入超时时间为4小时。
-       
-       通常情况下，用户不需要手动设置导入任务的超时时间。当在默认超时时间内无法完成导入时，可以手动设置任务的超时时间。
-       
-       **推荐超时时间**
-       
-       ``` 
-       总文件大小（MB） / 用户 Doris 集群最慢导入速度(MB/s)  > timeout > （（总文件大小(MB) * 待导入的表及相关 
Roll up 表的个数） / (10 * 导入并发数） ）
-       
-       导入并发数见文档最后的导入系统配置说明，公式中的 10 为目前的导入限速 10MB/s。
-       
-       ``` 
-       
-       例如一个 1G 的待导入数据，待导入表涉及了3个 Roll up 表，当前的导入并发数为 3。则 timeout 的 最小值为 ```(1 * 
1024 * 3 ) / (10 * 3) = 102 秒```
-       
-       由于每个 Doris 集群的机器环境不同且集群并发的查询任务也不同，所以用户 Doris 
集群的最慢导入速度需要用户自己根据历史的导入任务速度进行推测。
-       
-       *注意：用户设置导入超时时间最好在上述范围内。如果设置的超时时间过长，可能会导致总导入任务的个数超过 Doris 
系统限制，导致后续提交的导入被系统取消*
-               
+    
+    导入作业的超时时间(以秒为单位)，用户可以在 ```opt_properties``` 中自行设置每个导入的超时时间。导入任务在设定的 
timeout 时间内未完成则会被系统取消，变成 CANCELLED。Broker load 的默认导入超时时间为4小时。
+    
+    通常情况下，用户不需要手动设置导入任务的超时时间。当在默认超时时间内无法完成导入时，可以手动设置任务的超时时间。
+    
+    > 推荐超时时间
+    >
+    > 总文件大小（MB） / 用户 Doris 集群最慢导入速度(MB/s)  > timeout > （（总文件大小(MB) * 待导入的表及相关 
Roll up 表的个数） / (10 * 导入并发数） ）
+    
+    > 导入并发数见文档最后的导入系统配置说明，公式中的 10 为目前的导入限速 10MB/s。
+    
+    > 例如一个 1G 的待导入数据，待导入表包含3个 Rollup 表，当前的导入并发数为 3。则 timeout 的 最小值为 ```(1 * 
1024 * 3 ) / (10 * 3) = 102 秒```
+    
+    由于每个 Doris 集群的机器环境不同且集群并发的查询任务也不同，所以用户 Doris 
集群的最慢导入速度需要用户自己根据历史的导入任务速度进行推测。
+        
 + max\_filter\_ratio
 
-       导入任务的最大容忍率，默认为0容忍，取值范围是0~1。当导入的 filter ratio 超过该值，则导入失败。计算公式为： ``` 
(dpp.abnorm.ALL / (dpp.abnorm.ALL + dpp.norm.ALL ) )> max_filter_ratio ```
-       
-       ``` dpp.abnorm.ALL ``` 在代码中也叫 ``` num_rows_filtered``` 
指的是导入过程中被过滤的错误数据。比如：列在表中为非空列，但是导入数据为空则为错误数据。可以通过 ``` SHOW LOAD ``` 
命令查询导入任务的错误数据量。
-       
-       ``` dpp.norm.ALL ``` 指的是导入过程中正确数据的条数。可以通过 ``` SHOW LOAD ``` 
命令查询导入任务的正确数据量。
-       
-       ``` 原始文件的行数 = dpp.abnorm.ALL + dpp.norm.ALL ```
-       
+    导入任务的最大容忍率，默认为0容忍，取值范围是0~1。当导入的错误率超过该值，则导入失败。
+    
+    如果用户希望忽略错误的行，可以通过设置这个参数大于 0，来保证导入可以成功。
+    
+    计算公式为：
+    
+    ``` (dpp.abnorm.ALL / (dpp.abnorm.ALL + dpp.norm.ALL ) ) > 
max_filter_ratio ```
+    
+    ```dpp.abnorm.ALL``` 表示数据质量不合格的行数。如类型不匹配，列数不匹配，长度不匹配等等。
+    
+    ```dpp.norm.ALL``` 指的是导入过程中正确数据的条数。可以通过 ```SHOW LOAD``` 命令查询导入任务的正确数据量。
+    
+    原始文件的行数 = `dpp.abnorm.ALL + dpp.norm.ALL`
+    
 + exec\_mem\_limit
 
-       导入任务的内存使用上限。当导入任务使用的内存超过设定上限时，导入任务会被 CANCEL。系统默认的内存上限为2G。
-       
-       设定导入任务内存上限，可以保证各个导入任务之间以及导入任务和查询之间相互不影响。导入任务的内存上限不宜过大，过大可能会导致导入占满 be 
内存，查询无法快速返回结果。
-       
-       ```导入任务内存使用量 < 文件大小 / 当前执行导入任务的并发数```
-
-+ strict mode
+    导入任务的内存使用上限。当导入任务使用的内存超过设定上限时，导入任务会被 CANCEL。默认为 2G，单位为字节。
+    
+    当导入出现 `Memory exceed limit` 错误时，可以适当调整这个参数，如调整为 4G、8G 等。
 
-       Broker load 导入可以开启 strict mode模式。开启方式为 ```properties ("strict_mode" = 
"true")``` 。默认的 strict mode为开启。
++ strict\_mode
 
-       strict mode模式的意思是：对于导入过程中的列类型转换进行严格过滤。严格过滤的策略如下：
+    Broker load 导入可以开启 strict mode 模式。开启方式为 ```properties ("strict_mode" = 
"true")``` 。默认的 strict mode 为开启。
 
-       1. 对于列类型转换来说，如果 strict\_mode 为true，则错误的数据将被 
filter。这里的错误数据是指：原始数据并不为空值，在参与列类型转换后结果为空值的这一类数据。
+    strict mode 模式的意思是：对于导入过程中的列类型转换进行严格过滤。严格过滤的策略如下：
 
-       2. 对于导入的某列包含函数变换的，导入的值和函数的结果一致，strict 对其不产生影响。（其中 strftime 等 Broker 
load 支持的函数也属于这类）。
+    1. 对于列类型转换来说，如果 strict mode 为true，则错误的数据将被 
filter。这里的错误数据是指：原始数据并不为空值，在参与列类型转换后结果为空值的这一类数据。
 
-       3. 对于导入的某列类型包含范围限制的，如果原始数据能正常通过类型转换，但无法通过范围限制的，strict 对其也不产生影响。
-               + 例如：如果类型是 decimal(1,0), 原始数据为10，则属于可以通过类型转换但不在列声明的范围内。这种数据 
strict 对其不产生影响。
+    2. 对于导入的某列由函数变换生成时，strict mode 对其不产生影响。
+    
+    3. 对于导入的某列类型包含范围限制的，如果原始数据能正常通过类型转换，但无法通过范围限制的，strict mode 
对其也不产生影响。例如：如果类型是 decimal(1,0), 原始数据为 10，则属于可以通过类型转换但不在列声明的范围内。这种数据 strict 
对其不产生影响。
 
-       #### strict mode 与 source data 的导入关系
+#### strict mode 与 source data 的导入关系
 
-       这里以列类型为 TinyInt 来举例
+这里以列类型为 TinyInt 来举例
 
-       注：当表中的列允许导入空值时
+>注：当表中的列允许导入空值时
 
-       source data | source data example | string to int   | strict_mode       
 | load_data
-------------|---------------------|-----------------|--------------------|---------
-空值        | \N                  | N/A             | true or false      | NULL
-not null    | aaa or 2000         | NULL            | true               | 
filtered
-not null    | aaa                 | NULL            | false              | NULL
-not null    | 1                   | 1               | true or false      | 
correct data
+|source data | source data example | string to int   | strict_mode        | 
result|
+|------------|---------------------|-----------------|--------------------|---------|
+|空值        | \N                  | N/A             | true or false      | NULL|
+|not null    | aaa or 2000         | NULL            | true               | 
invalid data(filtered)|
+|not null    | aaa                 | NULL            | false              | 
NULL|
+|not null    | 1                   | 1               | true or false      | 
correct data|
 
-       这里以列类型为 Decimal(1,0) 举例
+>这里以列类型为 Decimal(1,0) 举例
  
-       注：当表中的列允许导入空值时
+>注：当表中的列允许导入空值时
+
+|source data | source data example | string to int   | strict_mode        | 
result|
+|------------|---------------------|-----------------|--------------------|--------|
+|空值        | \N                  | N/A             | true or false      | NULL|
+|not null    | aaa                 | NULL            | true               | 
invalid data(filtered)|
+|not null    | aaa                 | NULL            | false              | 
NULL|
+|not null    | 1 or 10             | 1               | true or false      | 
correct data|
 
-       source data | source data example | string to int   | strict_mode       
 | load_data
-------------|---------------------|-----------------|--------------------|---------
-空值        | \N                  | N/A             | true or false      | NULL
-not null    | aaa                 | NULL            | true               | 
filtered
-not null    | aaa                 | NULL            | false              | NULL
-not null    | 1 or 10             | 1               | true or false      | 
correct data
+> 注意：10 虽然是一个超过范围的值，但是因为其类型符合 decimal的要求，所以 strict mode对其不产生影响。10 最后会在其他 ETL 
处理流程中被过滤。但不会被 strict mode 过滤。
 
-       *注意：10 虽然是一个超过范围的值，但是因为其类型符合 decimal的要求，所以 strict mode对其不产生影响。10 最后会在其他 
ETL 处理流程中被过滤。但不会被 strict mode过滤。*
+### 查看导入
 
-## 查看导入
+Broker load 导入方式由于是异步的，所以用户必须将创建导入的 Label 记录，并且在**查看导入命令中使用 Label 
来查看导入结果**。查看导入命令在所有导入方式中是通用的，具体语法可执行 ```HELP SHOW LOAD``` 查看。
 
-Broker load 导入方式由于是异步的，所以用户必须将创建导入的 Label 记录，并且在**查看导入命令中使用 Label 
来查看导入结果**。查看导入命令在所有导入方式中是通用的，具体语法可执行 ``` HELP SHOW LOAD ```查看。
+示例：
+
+```
+mysql> show load order by createtime desc limit 1\G
+*************************** 1. row ***************************
+         JobId: 76391
+         Label: label1
+         State: FINISHED
+      Progress: ETL:N/A; LOAD:100%
+          Type: BROKER
+       EtlInfo: dpp.abnorm.ALL=15; dpp.norm.ALL=28133376
+      TaskInfo: cluster:N/A; timeout(s):10800; max_filter_ratio:5.0E-5
+      ErrorMsg: N/A
+    CreateTime: 2019-07-27 11:46:42
+  EtlStartTime: 2019-07-27 11:46:44
+ EtlFinishTime: 2019-07-27 11:46:44
+ LoadStartTime: 2019-07-27 11:46:44
+LoadFinishTime: 2019-07-27 11:50:16
+           URL: 
http://192.168.1.1:8040/api/_load_error_log?file=__shard_4/error_log_insert_stmt_4bb00753932c491a-a6da6e2725415317_4bb00753932c491a_a6da6e2725415317
+```
 
 下面主要介绍了查看导入命令返回结果集中参数意义：
 
 + JobId
 
-       导入任务的唯一标识，每个导入任务的JobId都不同。与 Label 不同的是，JobId永远不会相同，而 Label 
则可以在导入任务失败后被复用。
-       
+    导入任务的唯一ID，每个导入任务的 JobId 都不同，有系统自动生成。与 Label 不同的是，JobId永远不会相同，而 Label 
则可以在导入任务失败后被复用。
+    
 + Label
 
-       导入任务的标识。
-       
+    导入任务的标识。
+    
 + State
 
-       导入任务当前所处的阶段。在 Broker load 导入过程中主要会出现 PENDING 和 LOADING 这两个导入中的状态。如果 
Broker load 处于 PENDING 状态，则说明当前导入任务正在等待被执行， LOADING 状态则表示正在执行中（ transform and 
loading data）。
-       
-       导入任务的最终阶段有两个： CANCELLED 和 FINISHED，当 Load job 处于这两个阶段时，导入完成。其中 
CANCELLED 为导入失败，FINISHED 为导入成功。
-       
+    导入任务当前所处的阶段。在 Broker load 导入过程中主要会出现 PENDING 和 LOADING 这两个导入中的状态。如果 Broker 
load 处于 PENDING 状态，则说明当前导入任务正在等待被执行；LOADING 状态则表示正在执行中。
+    
+    导入任务的最终阶段有两个：CANCELLED 和 FINISHED，当 Load job 处于这两个阶段时，导入完成。其中 CANCELLED 
为导入失败，FINISHED 为导入成功。
+    
 + Progress
 
-       导入任务的进度描述。分为两种进度：ETL 和 LOAD，对应了导入流程的两个阶段 ETL 和 LOADING。目前 Broker load 
由于只有 LOADING 阶段，所以 ETL 则会永远显示为 ```N/A ``` 
-       
-       LOAD 的进度范围为：0~100%。``` LOAD 进度 = 当前完成导入的表个数 / 本次导入任务设计的总表个数 * 100%``` 
-       
-       **如果所有导入表均完成导入，此时 LOAD 的进度为 99%** 导入进入到最后生效阶段，整个导入完成后，LOAD 的进度才会改为 100%。
-       
+    导入任务的进度描述。分为两种进度：ETL 和 LOAD，对应了导入流程的两个阶段 ETL 和 LOADING。目前 Broker load 由于只有 
LOADING 阶段，所以 ETL 则会永远显示为 `N/A` 
+    
+    LOAD 的进度范围为：0~100%。
+    
+    ```LOAD 进度 = 当前完成导入的表个数 / 本次导入任务设计的总表个数 * 100%``` 
+    
+    **如果所有导入表均完成导入，此时 LOAD 的进度为 99%** 导入进入到最后生效阶段，整个导入完成后，LOAD 的进度才会改为 100%。
+    
+    导入进度并不是线性的。所以如果一段时间内进度没有变化，并不代表导入没有在执行。
+    
 + Type
 
-       导入任务的类型。Broker load 的 type 取值只有 BROKER。 
+    导入任务的类型。Broker load 的 type 取值只有 BROKER。    
 + EtlInfo
 
-       主要显示了导入的数据量指标 ``` dpp.norm.ALL 和 dpp.abnorm.ALL```。用户可以根据这两个指标验证当前导入任务的 
filter ratio 是否超过 max\_filter\_ratio.
-       
+    主要显示了导入的数据量指标 ```dpp.norm.ALL 和 
dpp.abnorm.ALL```。用户可以根据这两个指标验证当前导入任务的错误率是否超过 max\_filter\_ratio。
+    
 + TaskInfo
 
-       主要显示了当前导入任务参数，也就是创建 Broker load 
导入任务时用户指定的导入任务参数，包括：cluster，timeout和max\_filter\_ratio。
-       
+    主要显示了当前导入任务参数，也就是创建 Broker load 导入任务时用户指定的导入任务参数，包括：`cluster`，`timeout` 
和`max_filter_ratio`。
 
 Review comment:
   _前请加反斜杠

----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.
 
For queries about this service, please contact Infrastructure at:
us...@infra.apache.org


With regards,
Apache Git Services

---------------------------------------------------------------------
To unsubscribe, e-mail: dev-unsubscr...@doris.apache.org
For additional commands, e-mail: dev-h...@doris.apache.org

[GitHub] [incubator-doris] EmmyMiao87 commented on a change in pull request #1558: Modify load docs

Reply via email to