Repository: incubator-hivemall
Updated Branches:
  refs/heads/master 7b61a3be8 -> a8a97d6e8


[HIVEMALL-208] Upgrade to Lucene 5.5.5

## What changes were proposed in this pull request?
tokenize_ja failed to analyze certain Japanese strings
This cause is LUCENE-7279 which has already fixed. Lucene need to be upgraded.

## What type of PR is it?
Bug Fix

## What is the Jira issue?
https://issues.apache.org/jira/browse/HIVEMALL-208

## How was this patch tested?
unit tests

## Checklist
- [x] Did you apply source code formatter, i.e., `./bin/format_code.sh`, for 
your commit?

Author: iijima_satoshi <[email protected]>

Closes #153 from iijima-satoshi/upgrade-lucene.


Project: http://git-wip-us.apache.org/repos/asf/incubator-hivemall/repo
Commit: 
http://git-wip-us.apache.org/repos/asf/incubator-hivemall/commit/a8a97d6e
Tree: http://git-wip-us.apache.org/repos/asf/incubator-hivemall/tree/a8a97d6e
Diff: http://git-wip-us.apache.org/repos/asf/incubator-hivemall/diff/a8a97d6e

Branch: refs/heads/master
Commit: a8a97d6e873d5a8a30b06f92ddc14d1ec95c2738
Parents: 7b61a3b
Author: iijima_satoshi <[email protected]>
Authored: Thu Jul 5 18:05:45 2018 +0900
Committer: Makoto Yui <[email protected]>
Committed: Thu Jul 5 18:05:45 2018 +0900

----------------------------------------------------------------------
 nlp/pom.xml                                     |  4 ++--
 .../hivemall/nlp/tokenizer/KuromojiUDFTest.java | 23 ++++++++++++++++++++
 2 files changed, 25 insertions(+), 2 deletions(-)
----------------------------------------------------------------------


http://git-wip-us.apache.org/repos/asf/incubator-hivemall/blob/a8a97d6e/nlp/pom.xml
----------------------------------------------------------------------
diff --git a/nlp/pom.xml b/nlp/pom.xml
index 782e41d..af4703b 100644
--- a/nlp/pom.xml
+++ b/nlp/pom.xml
@@ -87,13 +87,13 @@
                <dependency>
                        <groupId>org.apache.lucene</groupId>
                        <artifactId>lucene-analyzers-kuromoji</artifactId>
-                       <version>5.3.1</version>
+                       <version>5.5.5</version>
                        <scope>compile</scope>
                </dependency>
                <dependency>
                        <groupId>org.apache.lucene</groupId>
                        <artifactId>lucene-analyzers-smartcn</artifactId>
-                       <version>5.3.1</version>
+                       <version>5.5.5</version>
                        <scope>compile</scope>
                </dependency>
 

http://git-wip-us.apache.org/repos/asf/incubator-hivemall/blob/a8a97d6e/nlp/src/test/java/hivemall/nlp/tokenizer/KuromojiUDFTest.java
----------------------------------------------------------------------
diff --git a/nlp/src/test/java/hivemall/nlp/tokenizer/KuromojiUDFTest.java 
b/nlp/src/test/java/hivemall/nlp/tokenizer/KuromojiUDFTest.java
index eb755e0..3533a28 100644
--- a/nlp/src/test/java/hivemall/nlp/tokenizer/KuromojiUDFTest.java
+++ b/nlp/src/test/java/hivemall/nlp/tokenizer/KuromojiUDFTest.java
@@ -251,6 +251,29 @@ public class KuromojiUDFTest {
     }
 
     @Test
+    public void testEvaluateLongRow() throws IOException, HiveException {
+        KuromojiUDF udf = new KuromojiUDF();
+        ObjectInspector[] argOIs = new ObjectInspector[1];
+        // line
+        argOIs[0] = 
PrimitiveObjectInspectorFactory.writableStringObjectInspector;
+        udf.initialize(argOIs);
+
+        DeferredObject[] args = new DeferredObject[1];
+        args[0] = new DeferredObject() {
+            public Text get() throws HiveException {
+                return new Text("商品の購å…
¥ãƒ»è©³ç´°(サイズ、画像)は商品名をクリックしてくだ
さい![L.B CANDY STOCK]フラワービジューベアドレス[L.B DAILY STOCK]ボーダーニットトップス[L.B DAILY STOCK]ボーダーロングニットOP[L.B DAILY STOCK]ロゴトートBAG[L.B DAILY STOCK]裏毛ロゴプリントプルオーバー【TVドラマ着用】アンゴラワッフルカーディガン【TVドラマ着用】グラフィティーバックリボンワンピース【TVドラマ着用】ボーダーハイネックトップス【TVドラマ着用】レオパードミッドカーフスカート【セットアップ対応商品】起毛ニットスカート【セットアップ対応商品】起毛ニットプルオーバー2wayサングラス33ナンバーリングニット3Dショルダーフレアードレス3周年スリッパ3周年ラグマット3周年ロックグラスキャンドルLily Brown 20
 
15年 福袋MIXニットプルオーバーPeckhamロゴニットアンゴラジャガードプルオーバーアンゴラタートルアンゴラチュニックアンゴラニットカーディガンアンゴラニットプルオーバーアンゴラフレアワンピースアンゴラロングカーディガンアンゴラワッフルカーディガンヴィンテージファー付コートヴィンテージボーダーニットヴィンテージレースハイネックトップスヴィンテージレースブラウスウエストシースルーボーダーワンピースオーガンジーラインフレアスカートオープンショルダーニットトップスオフショルシャーリングワンピースオフショルニットオフショルニットプルオーバーオフショルボーダーロンパースオフショルワイドコンビネゾンオルテガ柄ニットプルオーバーカシュクールオフショルワンピースカットアシンメトリーã
 
ƒ‰ãƒ¬ã‚¹ã‚«ãƒƒãƒˆã‚µãƒ†ãƒ³ãƒ—リーツフレアースカートカラースーパーハイウェストスキニーカラーブロックドレスカラーブロックニットチュニックギャザーフレアスカートキラキラストライプタイトスカートキラキラストライプドレスキルティングファーコートグラデーションベアドレスグラデーションラウンドサングラスグラフティーオフショルトップスグラフティーキュロットグリッターリボンヘアゴãƒ
 
クロップドブラウスケーブルハイウエストスカートコーデュロイ×スエードパネルスカートコーデュロイタイトスカートゴールドバックルベルト付スカートゴシックヒールショートブーツゴシック柄ニットワンピコンビスタジャンサイドステッチボーイズデニãƒ
 
パンツサスペつきショートパンツサスペンダー付プリーツロングスカートシャー
 
リングタイトスカートジャガードタックワンピーススエードフリルフラワーパンツスエード裏毛肩空きトップススクエアショルダーBAGスクエアバックルショルダースクエアミニバッグストーンビーチサンダルストライプサスペ付きスキニーストライプバックスリットシャツスライバーシャギーコートタートル×レースタイトスカートタートルニットプルオーバータイトジャンパースカートダブルクロスチュールフレアスカートダブルストラップパンプスダブルハートリングダブルフェイスチェックストールチェーンコンビビジューネックレスチェーンコンビビジューピアスチェーンコンビビジューブレスチェーンツバ広HATチェーンビジューピアスチェックニットプルオーバーチェックネルミディアãƒ
 ã‚¹ã‚«ãƒ¼ãƒˆãƒã‚§ãƒƒã‚¯æŸ„スキニーパンツチュãƒ
 ¼ãƒ«ã‚³ãƒ³ãƒ“アシメトップスデニム
フレアースカートドットオフショルフリルブラウスドットジャガードドレスドットニットプルオーバードットレーストップスニット×オーガンジースカートセットニットキャミソールワンピースニットスヌードパールコンビフープピアスハイウエストショートデニãƒ
 ãƒã‚¤ã‚¦ã‚¨ã‚¹ãƒˆã‚¿ã‚¤ãƒˆã‚¹ã‚«ãƒ¼ãƒˆãƒã‚¤ã‚¦ã‚¨ã‚¹ãƒˆãƒ‡ãƒ‹ãƒ 
ショートパンツハイウエストプリーツスカートハイウエストミッドカーフスカートハイゲージタートルニットハイゲージラインニットハイネック切り替えスウェットバタフライネックレスバタフライミニピアスバタフライリングバックタンクリブワンピースバックリボンスキニーデニãƒ
 
パンツバックリボン深Vワンピースビジューストラップサンダルビスチェコンビオフショルブラウスブークレジ
 ャガードニットフェイクム
ートンショートコートフェレットカーディガンフェレットビックタートルニットブラウジングクルーブラウスプリーツブラウスフリルニットプルオーバーフリンジニットプルオーバーフレアニットスカートブロウ型サングラスベーシックフェレットプルオーバーベルト付ガウチョパンツベルト付ショートパンツベルト付タックスカートベルト付タックパンツベルベットインヒールパンプスベロアウェッジパンプスベロアミッドカーフワンピースベロアワンピースベロア風ニットカーディガンボア付コートボーダーVネックTシャツボーダーオフショルカットソーボーダーカットソーワンピースボーダータイトカットソーボーダートップスボーダートップス×スカートセットボストンメガネマオカラーシャツニットセッ
 
トミックスニットプルオーバーミッドカーフ丈ポンチスカートミリタリーギャザーショートパンツメッシュハイネックトップスメルトンPコートメルトンダッフルコートメルトンダブルコートモヘアニットカーディガンモヘアニットタートルユリ柄プリーツフレアースカートライダースデニãƒ
 
ジャケットライナー付チェスターコートラッフルプリーツブラウスラメジャガードハイゲージニットリブニットワンピリボン×パールバレッタリボンバレッタリボンベルトハイウエストパンツリリー刺繍開襟ブラウスレースビスチェローファーサボロゴニットキャップロゴ刺繍ニットワッチロングニットガウンワッフルアンゴラプルオーバーワンショルダワーワンピースå
…
‰æ²¢ãƒ©ãƒ¡ãƒ‹ãƒƒãƒˆã‚«ãƒ¼ãƒ‡ã‚£ã‚¬ãƒ³åˆºç¹ã‚·ãƒ•ォンブラウス台形ミニスカートé
…è‰²ãƒ‹ãƒƒãƒˆã
 
ƒ—ルオーバー裏毛プルオーバー×オーガンジースカートセット");
+            }
+
+            @Override
+            public void prepare(int arg) throws HiveException {}
+        };
+        List<Text> tokens = udf.evaluate(args);
+        Assert.assertNotNull(tokens);
+        Assert.assertEquals(182, tokens.size());
+        udf.close();
+    }
+
+    @Test
     public void testEvaluateUserDictArray() throws IOException, HiveException {
         KuromojiUDF udf = new KuromojiUDF();
         ObjectInspector[] argOIs = new ObjectInspector[5];

Reply via email to