morningman commented on a change in pull request #1488:  Add administrator 
guide of load
URL: https://github.com/apache/incubator-doris/pull/1488#discussion_r304204773
 
 

 ##########
 File path: docs/documentation/cn/administrator-guide/load-data/load-manual.md
 ##########
 @@ -0,0 +1,256 @@
+# 导入
+导入(Load)功能就是将用户的原始数据导入到 Doris 中。导入成功后,用户即可通过 Mysql 客户端查询数据。
+
+本文档主要介绍导入简单原理,目前支持的几种导入方式,以及最佳实践。
+
+# 基本概念
+
+1. 导入任务(Load job):导入任务读取用户提交的源数据,转换或清洗后,将数据导入到 Doris 系统中。导入完成后,数据即可被用户查询到。
+2. backend(BE):Doris 系统的计算和存储节点。在导入流程中主要负责数据的 ETL 和存储。
+3. frontend(FE):Doris系统的元数据和调度节点。在导入流程中主要负责导入规划生成和导入任务的调度工作。 
+
+# 基本原理
+## 导入执行流程
+
+```
++---------+      +---------+      +----------+      +-----------+
+|         |      |         |      |          |      |           |
+|PENDING  +----->+ETL      +----->+LOADING   +----->+FINISHED   |
+|         |      |         |      |          |      |           |
++---------+      +---+-----+      +----+-----+      +-----------+
+                     |                 |
+                     |                 |
+                     |                 |
+                     |                 |            +-----------+
+                     |                 |            |           |
+                     +-----------------+------------>CANCELLED  |
+                                                    |           |
+                                                    +-----------+
+
+```
+
+如上图,导入流程主要经过上面4个阶段。其中 PENDING 和 ETL 阶段不是必须的阶段。
+
++ PENDING: 该阶段只有 Broker load 才有。Broker load 被用户提交后会短暂停留在这个阶段,直到被 FE 中的 
Scheduler 调度。 其中 Scheduler 的调度间隔为5秒。 
+
++ ETL: 该阶段在版本0.11.0(包含)之前存在,主要是用于将原始数据按照用户声明的 transform 
方式进行变换,并且过滤不满足条件的原始数据。在 0.11.0 后的版本,ETL 阶段不再存在,其中数据 transform 的工作被合并到 LOADING 
阶段。
+
+
++ LOADING: 该阶段在版本0.11.0(包含)之前主要用于将变换后的数据推到对应的 BE 存储中。在0.11.0后的版本,该阶段先对数据进行 ETL 
清洗和变换,然后将数据发送到 BE 存储中。当所有导入数据均完成 LOADING 后,Load job 会被 commit。
+
+
++ FINISHED: 在 Load job 完成 commit 后,数据全部生效 Load job 被标记为 FINISHED。FINISHED 
后导入的数据均可查询。
+
+
++ CANCELLED: 在 ETL 或者 LOADING 的过程中,如果发生数据质量不合格等问题,Load Job 会被系统 
cancel,本次导入会全部失败。当然,用户也可以手动取消 Load Job。CANCELLED 也是 Load Job 的最终状态,不可被再次执行。
+
+
+上述阶段,除了 PENDING 到 LOADING 阶段是 Scheduler 轮训调度的,其他阶段之前的转移都是回调机制实现。
+
+# 导入相关配置
 
 Review comment:
   这个相关配置建议写到各自的导入的手册中,即使冗余,但是方便用户在同一个文档内查看所有的配置

----------------------------------------------------------------
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.
 
For queries about this service, please contact Infrastructure at:
[email protected]


With regards,
Apache Git Services

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to