imbajin commented on PR #445:
URL: 
https://github.com/apache/incubator-hugegraph-doc/pull/445#issuecomment-3783512504

   ## PR 审查意见 - Loader 文档易用性
   
   你好!我已经审查了这个 PR 的 Loader 文档更新。总体来说,新增了 24 个参数的文档,信息量很大。从易用性角度,我发现了以下需要改进的问题:
   
   ### ‼️ 严重问题 (Critical)
   
   #### 1. `--graphspace` 参数丢失短参数形式
   **位置**: content/cn/docs/quickstart/toolchain/hugegraph-loader.md:54
   
   原来是 `-gs` 或 `--graphspace`,现在变成了只有 `--graphspace`。这会导致:
   - 与实际命令行参数不匹配
   - 用户无法使用短参数 `-gs`
   - 与其他参数格式不一致
   
   **建议**: 恢复为 `-gs` 或 `--graphspace`
   
   #### 2. `--parallel-count` 参数名重复
   **位置**: content/cn/docs/quickstart/toolchain/hugegraph-loader.md:850
   
   表格中写的是 `--parallel-count` 或 `--parallel-count`,参数名重复了。需要确认:
   - 是否应该是 `--parallel-count` 或 `-pc`?
   - 还是该参数本身就没有短参数形式?
   
   #### 3. 英文版包含中文字符
   **位置**: content/en/docs/quickstart/toolchain/hugegraph-loader.md:207
   
   英文文档中出现了中文 `或` 字符:`--parallel-count` 或 `--parallel-count`
   
   应修改为:`--parallel-count` or `--parallel-count` 或删除重复部分。
   
   ### ⚠️ 重要问题 (Important)
   
   #### 4. 新增参数缺少短参数形式说明
   新增的 24 个参数都没有短参数形式(如 `-f`, `-g` 等),导致表格第一列格式不统一。
   
   **建议**:
   - 如果确实没有短参数,在描述中说明
   - 或统一标注"(无短参数)"
   
   #### 5. `--sink-type` 参数描述模糊
   **位置**: content/cn/docs/quickstart/toolchain/hugegraph-loader.md:862
   
   默认值为 `true`,但描述"数据接收端(Sink)存储类型开关"让用户不清楚:
   - `true` 代表什么存储类型?
   - `false` 代表什么?
   
   **建议**: 明确说明可选的存储类型,例如:"是否使用 HBase 存储,false 时使用默认后端"
   
   #### 6. HBase 相关参数缺少使用场景说明
   新增了 7 个 HBase 相关参数(`--vertex-partitions`, `--hbase-zk-quorum` 等),但没有说明:
   - 这些参数仅适用于 HBase 后端
   - 需要配合 `--backend=hbase` 使用
   
   **建议**: 在 3.4.1 章节开头或增加子章节说明不同后端的参数配置
   
   #### 7. `--short-id` 参数类型不明确
   **位置**: content/cn/docs/quickstart/toolchain/hugegraph-loader.md:860
   
   默认值为空,但不清楚:
   - 参数类型是什么?(布尔值/字符串/文件路径?)
   - 如何使用?
   
   **建议**: 补充参数类型和使用示例
   
   ### 🧹 优化建议 (Minor)
   
   #### 8. 参数数量过多,建议分组
   当前表格包含 49 个参数,信息量大,建议按功能分组:
   - **基础参数**: `-f`, `-g`, `-s` 等
   - **性能调优**: `--batch-insert-threads`, `--parallel-count` 等
   - **高级特性**: `--incremental-mode`, `--dry-run` 等
   - **HBase 后端**: `--vertex-partitions` 等
   - **CDC 相关**: `--cdc-flush-interval` 等
   
   #### 9. 缺少实际使用示例
   新增的 24 个参数都没有实际使用示例。
   
   **建议**在 3.4.4 或第 4 章补充:
   1. 高性能导入示例(含 `--parallel-count`, `--scatter-sources`)
   2. HBase 后端导入示例
   3. CDC 流式导入示例
   4. 分片导入示例(`--start-file`, `--end-file`)
   
   #### 10. `--scatter-sources` 描述可以更详细
   "分散(并行)读取多个数据源以优化 I/O 性能"对新用户来说不够直观。
   
   **建议**补充:
   - 适用场景(如:"适用于同时导入多个大文件")
   - 与 `--parallel-count` 的区别和配合方式
   
   ---
   
   总体评价:这次更新补充了大量参数文档,非常有价值!但从易用性角度看,建议:
   1. **修复 3 个严重问题**(`--graphspace`, `--parallel-count` 重复,英文版中文字符)
   2. **完善参数描述**,特别是 HBase/CDC 相关参数的使用场景
   3. **增加实际使用示例**,帮助用户快速上手
   
   期待更新!👍


-- 
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.

To unsubscribe, e-mail: [email protected]

For queries about this service, please contact Infrastructure at:
[email protected]


---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

Reply via email to