(seatunnel) branch dev updated: [Doc][Improve] translate neo4j starrocks related chinese document (#8549)

wanghailin Sun, 19 Jan 2025 21:11:22 -0800

This is an automated email from the ASF dual-hosted git repository.

wanghailin pushed a commit to branch dev
in repository https://gitbox.apache.org/repos/asf/seatunnel.git



The following commit(s) were added to refs/heads/dev by this push:
     new d66d2e26c0 [Doc][Improve] translate neo4j starrocks related chinese 
document (#8549)
d66d2e26c0 is described below

commit d66d2e26c099f1d8a01a98b5d0cfca63d874d5b0
Author: Cheun99 <[email protected]>
AuthorDate: Mon Jan 20 13:11:04 2025 +0800

    [Doc][Improve] translate neo4j starrocks related chinese document (#8549)
---
 docs/zh/connector-v2/sink/Neo4j.md       | 144 ++++++++++++++++++++++++
 docs/zh/connector-v2/source/Neo4j.md     | 100 +++++++++++++++++
 docs/zh/connector-v2/source/StarRocks.md | 183 +++++++++++++++++++++++++++++++
 3 files changed, 427 insertions(+)

diff --git a/docs/zh/connector-v2/sink/Neo4j.md 
b/docs/zh/connector-v2/sink/Neo4j.md
new file mode 100644
index 0000000000..8efb97002b
--- /dev/null
+++ b/docs/zh/connector-v2/sink/Neo4j.md
@@ -0,0 +1,144 @@
+# Neo4j
+
+> Neo4j 写连接器
+
+## 描述
+
+写数据到 `Neo4j`。
+
+`neo4j-java-driver` version 4.4.9
+
+## 主要功能
+
+- [ ] [精确一次](../../concept/connector-v2-features.md)
+
+## 配置选项
+
+| 名称                         | 类型      | 是否必须 | 默认值      |
+|----------------------------|---------|------|----------|
+| uri                        | String  | 是    | -        |
+| username                   | String  | 否    | -        |
+| password                   | String  | 否   | -        |
+| max_batch_size             | Integer | 否   | -        |
+| write_mode                 | String  | 否   | OneByOne |
+| bearer_token               | String  | 否   | -        |
+| kerberos_ticket            | String  | 否   | -        |
+| database                   | String  | 是    | -        |
+| query                      | String  | 是    | -        |
+| queryParamPosition         | Object  | 是    | -        |
+| max_transaction_retry_time | Long    | 否   | 30       |
+| max_connection_timeout     | Long    | 否   | 30       |
+| common-options             | config  | 否   | -        |
+
+### uri [string]
+
+`Neo4j`数据库的URI，参考配置： `neo4j://localhost:7687`。
+
+### username [string]
+
+`Neo4j`用户名。
+
+### password [string]
+
+`Neo4j`密码。如果提供了“用户名”，则需要。
+
+### max_batch_size[Integer]
+
+`max_batch_size` 是指写入数据时，单个事务中可以写入的最大数据条目数。
+
+### write_mode
+
+默认值为 `oneByOne` ，如果您想批量写入，请将其设置为`Batch`
+
+```cypher
+unwind $ttt as row create (n:Label) set n.name = row.name,n.age = rw.age
+```
+
+`ttt`代表一批数据。，`ttt`可以是任意字符串，只要它与配置的`batch_data_variable` 匹配。
+
+### bearer_token [string]
+
+`Neo4j`的`base64`编码`bearer token`用于鉴权。
+
+### kerberos_ticket [string]
+
+`Neo4j`的`base64`编码`kerberos ticket`用于鉴权。
+
+### database [string]
+
+数据库名称。
+
+### query [string]
+
+查询语句。包含在运行时用相应值替换的参数占位符。
+
+### queryParamPosition [object]
+
+查询参数的位置映射信息。
+
+键名是参数占位符名称。
+
+关联值是字段在输入数据行中的位置。
+
+### max_transaction_retry_time [long]
+
+最大事务重试时间（秒）。如果超过，则交易失败。
+
+### max_connection_timeout [long]
+
+等待TCP连接建立的最长时间（秒）。
+
+### common options
+
+Sink插件常用参数， 详细信息请参考 [Sink公共配置](../sink-common-options.md)
+
+## OneByOne模式写示例
+
+```
+sink {
+  Neo4j {
+    uri = "neo4j://localhost:7687"
+    username = "neo4j"
+    password = "1234"
+    database = "neo4j"
+    max_transaction_retry_time = 10
+    max_connection_timeout = 10
+    query = "CREATE (a:Person {name: $name, age: $age})"
+    queryParamPosition = {
+        name = 0
+        age = 1
+    }
+  }
+}
+```
+
+## Batch模式写示例
+> cypher提供的`unwind`关键字支持批量写入，
+> 批量数据的默认变量是batch。如果你写一个批处理写语句， 
+> 那么你应该声明 cypher `unwind $batch` 作为行
+```
+sink {
+  Neo4j {
+    uri = "bolt://localhost:7687"
+    username = "neo4j"
+    password = "neo4j"
+    database = "neo4j"
+    max_batch_size = 1000
+    write_mode = "BATCH"
+    max_transaction_retry_time = 3
+    max_connection_timeout = 10
+    query = "unwind $batch as row  create(n:MyLabel) set n.name = 
row.name,n.age = row.age"
+  }
+}
+```
+
+## Changelog
+
+### 2.2.0-beta 2022-09-26
+
+- 添加 Neo4j 写连接器
+
+### issue ##4835
+
+- 写连接器支持批量写入
+
diff --git a/docs/zh/connector-v2/source/Neo4j.md 
b/docs/zh/connector-v2/source/Neo4j.md
new file mode 100644
index 0000000000..20471b7989
--- /dev/null
+++ b/docs/zh/connector-v2/source/Neo4j.md
@@ -0,0 +1,100 @@
+# Neo4j
+
+> Neo4j 源连接器器
+
+## 描述
+
+从 `Neo4j` 读取数据
+
+`neo4j-java-driver` 版本 4.4.9
+
+## 主要功能
+
+- [x] [批处理](../../concept/connector-v2-features.md)
+- [ ] [流处理](../../concept/connector-v2-features.md)
+- [ ] [精确一次](../../concept/connector-v2-features.md)
+- [x] [列投影](../../concept/connector-v2-features.md)
+- [ ] [并行度](../../concept/connector-v2-features.md)
+- [ ] [支持用户定义拆分](../../concept/connector-v2-features.md)
+
+## 配置选项
+
+| 名称                         | 类型     | 是否必须 | 默认值 |
+|----------------------------|--------|------|-----|
+| uri                        | String | 是    | -   |
+| username                   | String | 否    | -   |
+| password                   | String | 否   | -   |
+| bearer_token               | String | 否   | -   |
+| kerberos_ticket            | String | 否   | -   |
+| database                   | String | 是    | -   |
+| query                      | String | 是    | -   |
+| schema                     | Object | 是    | -   |
+| max_transaction_retry_time | Long   | 否   | 30  |
+| max_connection_timeout     | Long   | 否   | 30  |
+
+### uri [string]
+
+`Neo4j`数据库的URI，参考配置： `neo4j://localhost:7687`。
+
+### username [string]
+
+`Neo4j`用户名。
+
+### password [string]
+
+`Neo4j`密码。如果提供了“用户名”，则需要。
+
+### bearer_token [string]
+
+`Neo4j`的`base64`编码`bearer token`用于鉴权。
+
+### kerberos_ticket [string]
+
+`Neo4j`的`base64`编码`kerberos ticket`用于鉴权。
+
+### database [string]
+
+数据库名。
+
+### query [string]
+
+查询语句。
+
+### schema.fields [string]
+
+返回`query` 的字段。
+
+查看 [列投影](../../concept/connector-v2-features.md)
+
+### max_transaction_retry_time [long]
+
+最大事务重试时间（秒）。如果超过，则事务失败。
+
+### max_connection_timeout [long]
+
+等待TCP连接建立的最长时间（秒）。
+
+## 示例
+
+```
+source {
+    Neo4j {
+        uri = "neo4j://localhost:7687"
+        username = "neo4j"
+        password = "1234"
+        database = "neo4j"
+        max_transaction_retry_time = 1
+        max_connection_timeout = 1
+        query = "MATCH (a:Person) RETURN a.name, a.age"
+        schema {
+            fields {
+                a.age=INT
+                a.name=STRING
+            }
+        }
+    }
+}
+```
+
+
+
diff --git a/docs/zh/connector-v2/source/StarRocks.md 
b/docs/zh/connector-v2/source/StarRocks.md
new file mode 100644
index 0000000000..773718648a
--- /dev/null
+++ b/docs/zh/connector-v2/source/StarRocks.md
@@ -0,0 +1,183 @@
+# StarRocks
+
+> StarRocks 源连接器
+
+## 描述
+
+通过`StarRocks`读取外部数据源数据。
+`StarRocks`源连接器的内部实现是从`FE`获取查询计划，
+将查询计划作为参数传递给`BE`节点，然后从`BE`节点获取数据结果。
+
+## 主要功能
+
+- [x] [批处理](../../concept/connector-v2-features.md)
+- [ ] [流处理](../../concept/connector-v2-features.md)
+- [ ] [精确一次](../../concept/connector-v2-features.md)
+- [x] [列投影](../../concept/connector-v2-features.md)
+- [x] [并行度](../../concept/connector-v2-features.md)
+- [x] [支持用户定义拆分](../../concept/connector-v2-features.md)
+
+## 配置选项
+
+| 名称                      | 类型     | 是否必须 | 默认值               |
+|-------------------------|--------|------|-------------------|
+| nodeUrls                | list   | 是    | -                 |
+| username                | string | 是    | -                 |
+| password                | string | 是    | -                 |
+| database                | string | 是    | -                 |
+| table                   | string | 是    | -                 |
+| scan_filter             | string | 否    | -                 |
+| schema                  | config | 是    | -                 |
+| request_tablet_size     | int    | 否   | Integer.MAX_VALUE |
+| scan_connect_timeout_ms | int    | 否   | 30000             |
+| scan_query_timeout_sec  | int    | 否   | 3600              |
+| scan_keep_alive_min     | int    | 否   | 10                |
+| scan_batch_rows         | int    | 否   | 1024              |
+| scan_mem_limit          | long   | 否   | 2147483648        |
+| max_retries             | int    | 否   | 3                 |
+| scan.params.*           | string | 否   | -                 |
+
+### nodeUrls [list]
+
+`StarRocks` 集群地址配置格式 `["fe_ip:fe_http_port", ...]`。
+
+### username [string]
+
+`StarRocks` 用户名称。
+
+### password [string]
+
+`StarRocks` 用户密码。
+
+### database [string]
+
+`StarRocks` 数据库名。
+
+### table [string]
+
+`StarRocks` 表名。
+
+### scan_filter [string]
+
+过滤查询的表达式，该表达式透明地传输到`StarRocks` 。`StarRocks` 使用此表达式完成源端数据过滤。
+
+例如
+
+```
+"tinyint_1 = 100"
+```
+
+### schema [config]
+
+#### fields [Config]
+
+要生成的`starRocks`的`schema`
+
+示例
+
+```
+schema {
+    fields {
+        name = string
+        age = int
+    }
+  }
+```
+
+### request_tablet_size [int]
+
+与分区对应的`StarRocks 
tablet`的数量。此值设置得越小，生成的分区就越多。这将增加引擎的平行度，但同时也会给`StarRocks`造成更大的压力。
+
+以下示例，用于解释如何使用`request_tablet_size`来控制分区的生成。
+
+```
+StarRocks 集群中表的 tablet 分布作为 follower
+
+be_node_1 tablet[1, 2, 3, 4, 5]
+be_node_2 tablet[6, 7, 8, 9, 10]
+be_node_3 tablet[11, 12, 13, 14, 15]
+
+1.如果没有设置 request_tablet_size，则单个分区中的 tablet 数量将没有限制。分区将按以下方式生成：
+
+partition[0] 从 be_node_1 读取 tablet 数据：tablet[1, 2, 3, 4, 5]
+partition[1] 从 be_node_2 读取 tablet 数据：tablet[6, 7, 8, 9, 10]
+partition[2] 从 be_node_3 读取 tablet 数据：tablet[11, 12, 13, 14, 15]
+
+2.如果设置了 request_tablet_size=3，则每个分区中最多包含 3 个 tablet。分区将按以下方式生成
+
+partition[0] 从 be_node_1 读取 tablet 数据：tablet[1, 2, 3]
+partition[1] 从 be_node_1 读取 tablet 数据：tablet[4, 5]
+partition[2] 从 be_node_2 读取 tablet 数据：tablet[6, 7, 8]
+partition[3] 从 be_node_2 读取 tablet 数据：tablet[9, 10]
+partition[4] 从 be_node_3 读取 tablet 数据：tablet[11, 12, 13]
+partition[5] 从 be_node_3 读取 tablet 数据：tablet[14,15]
+```
+
+### scan_connect_timeout_ms [int]
+
+发送到 `StarRocks` 的请求连接超时。
+
+### scan_query_timeout_sec [int]
+
+在 `StarRocks` 中，查询超时时间的默认值为 1 小时，-1 表示没有超时限制。
+
+### scan_keep_alive_min [int]
+
+查询任务的保持连接时长，单位是分钟，默认值为 10 分钟。我们建议将此参数设置为大于或等于 5 的值。
+### scan_batch_rows [int]
+
+一次从 `BE` 节点读取的最大数据行数。增加此值可以减少引擎与 `StarRocks` 之间建立的连接数量，从而减轻由网络延迟引起的开销。
+### scan_mem_limit [long]
+
+单个查询在 BE 节点上允许的最大内存空间，单位为字节，默认值为 2147483648 字节（即 2 GB）。
+
+### max_retries [int]
+
+发送到 `StarRocks` 的重试请求次数。
+
+### scan.params. [string]
+
+从 `BE` 节点扫描数据相关的参数。
+
+## 示例
+
+```
+source {
+  StarRocks {
+    nodeUrls = ["starrocks_e2e:8030"]
+    username = root
+    password = ""
+    database = "test"
+    table = "e2e_table_source"
+    scan_batch_rows = 10
+    max_retries = 3
+    schema {
+        fields {
+           BIGINT_COL = BIGINT
+           LARGEINT_COL = STRING
+           SMALLINT_COL = SMALLINT
+           TINYINT_COL = TINYINT
+           BOOLEAN_COL = BOOLEAN
+           DECIMAL_COL = "DECIMAL(20, 1)"
+           DOUBLE_COL = DOUBLE
+           FLOAT_COL = FLOAT
+           INT_COL = INT
+           CHAR_COL = STRING
+           VARCHAR_11_COL = STRING
+           STRING_COL = STRING
+           DATETIME_COL = TIMESTAMP
+           DATE_COL = DATE
+        }
+    }
+    scan.params.scanner_thread_pool_thread_num = "3"
+    
+  }
+}
+```
+
+## Changelog
+
+### next version
+
+- Add StarRocks Source Connector
+

(seatunnel) branch dev updated: [Doc][Improve] translate neo4j starrocks related chinese document (#8549)

Reply via email to