kou commented on code in PR #617:
URL: https://github.com/apache/arrow-site/pull/617#discussion_r1986727421
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
Review Comment:
In general, we can use half-width numbers in Japanese too.
```suggestion
_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
```
##########
_includes/arrow_result_transfer_series_japanese.md:
##########
Review Comment:
How about using `-` not `_` for file name separator?
Most of files in this repository use `-`.
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
Review Comment:
Natural version:
```suggestion
[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]では、いくつかシステムは10秒しかかからないはずのデータセットの送受信に**10分**以上かかっていると指摘しています[^ten]。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
+
+[^freepdf]:
[VLDB](https://www.vldb.org/pvldb/vol10/p1022-muehleisen.pdf)から論文を無料でダウンロードできます。
+[^ten]: 論文のFigure
1に、ベースラインとしてnetcatは10秒でCSVファイルを送信にたいして、HiveとMongoDBは600秒以上がかかるのを示します。もちろん、CSVは解析されてないので、この比較は完全に平等のではありません。でも問題の規模を把握できます。
+
+どうして必要より60倍以上の時間がかかるでしょうか?
Review Comment:
Ah, this sentence is difficult to translate to natural Japanese...
```suggestion
どうして必要な時間より60倍以上も長い時間がかかるのでしょうか?
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
Review Comment:
```suggestion
型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間だったり、
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
Review Comment:
```suggestion
title: "データは自由になりたい:Apache Arrowで高速データ交換"
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
Review Comment:
In general, we use half-width alphabets for acronyms such as CSV and HTML:
```suggestion
非効率的でやっかいなCSVファイルを整理する時間だったり、
```
If we use "雑然", we need to change to "雑然としたCSV" because "雑然" is noun not
adjective. But "やっかいな" (adjective) may be simpler here.
I couldn't explain why (sorry...) but we can use "時間だったり" not "時間を掛けたり"
here. And it's more natural in Japanese.
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
Review Comment:
We need "番" ("三番目") or "つ" ("3つ目") for "the third".
```suggestion
今回はこの三番目の問題を注目します。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
Review Comment:
This sentence is difficult to translate to Japanese to me... But here is
more natural Japanese:
```suggestion
データ技術者として、データが「人質に取られている」とよく感じます。
```
I think that coupling "our data" and '"held hostage"' is better than mixing
"our data", "often" and '"held hostage"'.
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
Review Comment:
We don't need "ぜったい" here because "間違いなく" means "ぜったい".
```suggestion
間違いなく、この問題はまだ起こっています。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
Review Comment:
```suggestion
データがソケットを介して受信するのを待つ時間をだったり。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
+
+[^freepdf]:
[VLDB](https://www.vldb.org/pvldb/vol10/p1022-muehleisen.pdf)から論文を無料でダウンロードできます。
+[^ten]: 論文のFigure
1に、ベースラインとしてnetcatは10秒でCSVファイルを送信にたいして、HiveとMongoDBは600秒以上がかかるのを示します。もちろん、CSVは解析されてないので、この比較は完全に平等のではありません。でも問題の規模を把握できます。
Review Comment:
In general, we use Kanji for "たいして" ("対して"). But it seems that we don't need
to use "たいして" here:
```suggestion
[^ten]: 論文のFigure
1では、ベースラインのnetcatは10秒でCSVファイルを送信し、HiveとMongoDBは600秒以上かかっていること示しています。もちろん、CSVは解析されていないので、この比較は完全に平等ではありません。しかし、問題の規模を把握できます。
```
There are particle difficulties too...
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
Review Comment:
How about splitting to two simple sentences instead of one sentence?
```suggestion
データをもらってもすぐに使うことはできません。使えるようになるまでに時間がかかります。
```
In general, we don't use Kanji for "掛ける" in "時間を掛ける". We use Hiragana for it.
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
Review Comment:
Particle is difficult...:
"データセットを送受信" ->
"データセットの送受信"
"送受信はあるデータシステムが" ->
"送受信にあるデータシステムが"
"あるデータシステムが**10分**以上をかかります" ->
"あるデータシステムは**10分**以上かかります"
```suggestion
[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信するために、あるデータシステムは**10分**以上かかっていることがわかりました[^ten]。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
+
+[^freepdf]:
[VLDB](https://www.vldb.org/pvldb/vol10/p1022-muehleisen.pdf)から論文を無料でダウンロードできます。
+[^ten]: 論文のFigure
1に、ベースラインとしてnetcatは10秒でCSVファイルを送信にたいして、HiveとMongoDBは600秒以上がかかるのを示します。もちろん、CSVは解析されてないので、この比較は完全に平等のではありません。でも問題の規模を把握できます。
+
+どうして必要より60倍以上の時間がかかるでしょうか?
+[この前に論じていた通り、ツールはデータシリアライズのオーバーヘッドに悩まされています。]({% link
_posts/2025-01-10-arrow-result-transfer.md %})
+でもArrowは手伝えます。
+それでもっと具体的にします:データシリアライズフォーマットの影響を示すために、PostgreSQLとArrowは同じデータをどうやってエンコードするのを比較します。
Review Comment:
In general, we can use "。" for ":" in Japanese. In general, ":" isn't used
in Japanese.
```suggestion
それではもっと具体的な話をしましょう。データシリアライズフォーマットの影響を示すために、PostgreSQLとArrowが同じデータをどうやってエンコードするのかを比較しましょう。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
+
+[^freepdf]:
[VLDB](https://www.vldb.org/pvldb/vol10/p1022-muehleisen.pdf)から論文を無料でダウンロードできます。
+[^ten]: 論文のFigure
1に、ベースラインとしてnetcatは10秒でCSVファイルを送信にたいして、HiveとMongoDBは600秒以上がかかるのを示します。もちろん、CSVは解析されてないので、この比較は完全に平等のではありません。でも問題の規模を把握できます。
+
+どうして必要より60倍以上の時間がかかるでしょうか?
+[この前に論じていた通り、ツールはデータシリアライズのオーバーヘッドに悩まされています。]({% link
_posts/2025-01-10-arrow-result-transfer.md %})
+でもArrowは手伝えます。
+それでもっと具体的にします:データシリアライズフォーマットの影響を示すために、PostgreSQLとArrowは同じデータをどうやってエンコードするのを比較します。
+その後、Arrow HTTPやArrow FlightなどというArrowでプロトコルを作る色々な方法を説明し、各方法の使い方も説明します。
Review Comment:
```suggestion
その後、Arrow HTTPやArrow FlightなどのArrowベースのプロトコルを作る色々な方法を説明し、各方法の使い方も説明します。
```
##########
_posts/2025-03-10-data-wants-to-be-free-japanese.md:
##########
@@ -0,0 +1,225 @@
+---
+layout: post
+lang: ja-JP
+title: "データは自由になりたい:Apache Arrowでデータ交換は高速"
+description: ""
+date: "2025-02-28 00:00:00"
+author: David Li, Ian Cook, Matt Topol
+categories: [application]
+image:
+ path: /img/arrow-result-transfer/part-1-share-image.png
+ height: 1200
+ width: 705
+translations:
+ - language: 原文(English)
+ post_id: 2025-02-28-data-wants-to-be-free
+---
+
+<!--
+{% comment %}
+Licensed to the Apache Software Foundation (ASF) under one or more
+contributor license agreements. See the NOTICE file distributed with
+this work for additional information regarding copyright ownership.
+The ASF licenses this file to you under the Apache License, Version 2.0
+(the "License"); you may not use this file except in compliance with
+the License. You may obtain a copy of the License at
+
+http://www.apache.org/licenses/LICENSE-2.0
+
+Unless required by applicable law or agreed to in writing, software
+distributed under the License is distributed on an "AS IS" BASIS,
+WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+See the License for the specific language governing permissions and
+limitations under the License.
+{% endcomment %}
+-->
+
+<style>
+.a-header {
+ color: #984EA3;
+ font-weight: bold;
+}
+.a-data {
+ color: #377EB8;
+ font-weight: bold;
+}
+.a-length {
+ color: #FF7F00;
+ font-weight: bold;
+}
+.a-padding {
+ color: #E41A1C;
+ font-weight: bold;
+}
+</style>
+
+_この記事はデータベースとクエリーエンジン間のデータ交換フォーマットとしてなぜArrowが使われているのかという謎を解くシリーズの2記事目です。_
+
+{% include arrow_result_transfer_series_japanese.md %}
+
+データ技術者として、データはよく「人質に取られた」ことをわかっています。
+データをもらい次第データを使わずに、まず時間を掛けなければいけません。
+非効率的で雑然CSVファイルを整理する時間を掛けたり、
+型落ちのクエリエンジンが数GBのデータに苦労するのを待つ時間を掛けたり、
+データがソケットを介して受信するのを待つ時間を掛けたり。
+今回はこの三目の問題を注目します。
+マルチギガビットネットワークの時代に、そもそもこの問題がまだ起こっているのはどうしてでしょうか?
+間違いなく、この問題はぜったいまだ起こっています。
+[Mark RaasveldtとHannes
Mühleisenの2017年の論文](https://doi.org/10.14778/3115404.3115408)[^freepdf]によって、10秒しかかからないはずのデータセットを送受信はあるデータシステムが**10分**以上をかかります[^ten]。
+
+[^freepdf]:
[VLDB](https://www.vldb.org/pvldb/vol10/p1022-muehleisen.pdf)から論文を無料でダウンロードできます。
+[^ten]: 論文のFigure
1に、ベースラインとしてnetcatは10秒でCSVファイルを送信にたいして、HiveとMongoDBは600秒以上がかかるのを示します。もちろん、CSVは解析されてないので、この比較は完全に平等のではありません。でも問題の規模を把握できます。
+
+どうして必要より60倍以上の時間がかかるでしょうか?
+[この前に論じていた通り、ツールはデータシリアライズのオーバーヘッドに悩まされています。]({% link
_posts/2025-01-10-arrow-result-transfer.md %})
+でもArrowは手伝えます。
Review Comment:
It may be better that we use free translation here for easy to understand:
```suggestion
しかし、この問題はArrowで解消できます。
```
--
This is an automated message from the Apache Git Service.
To respond to the message, please log on to GitHub and use the
URL above to go to the specific comment.
To unsubscribe, e-mail: [email protected]
For queries about this service, please contact Infrastructure at:
[email protected]