Hi Developers,
I am attaching the tokens generated from Java Lucene and CLucene. I am
getting different tokens for non-latin texts using StandardAnalyser.
Is there a solution which will generate the same tokens for CLucene as the
Java Lucene?

Thanks & Regards,
Achyuth Pramod

On Mon, Jul 10, 2023 at 6:44 PM Kostka Bořivoj <kos...@tovek.cz> wrote:

> CLucene supports at least Unicode plane 0
>
> CLucene uses wchar_t as internal representation, while indexes uses UTF-8
>
> You must not set ENABLE_ASCII_MODE in CMake during build, otherwise only
> US-Acscii (or perhaps ISO Latin 1, I‘m not sure) is supported
>
>
>
> Not 100% sure about Standard Analyzer, because we don’t use them, but I
> can’t see any problem in it.
>
>
>
> In your Greek query, the problem can also be with lowercasing and  „ending
> sigma“ (ς) character (see https://en.wikipedia.org/wiki/Sigma)
>
>
>
> Hope this helps
>
>
>
> Borivoj
>
>
>
> *From:* Achyuth Pramod [mailto:achyuthpra...@gmail.com]
> *Sent:* Monday, July 10, 2023 2:32 PM
> *To:* clucene-developers@lists.sourceforge.net
> *Subject:* [CLucene-dev] Inquiry about CLucene's UTF-8 support
>
>
>
> Dear developers,
>
> I am using CLucene in my project and I would like to inquire about the UTF-8 
> encoding support in the Standard Analyzer. Specifically, I would like to know 
> if the Standard Analyzer handles tokenization and text processing correctly 
> for non-Latin UTF-8 encoded text.
>
> Could you please confirm if the Standard Analyzer in CLucene has built-in 
> support for UTF-8 encoded text? If not, are there any recommended 
> alternatives or additional analyzers that provide better support for 
> non-Latin UTF-8 text?
>
> The below is the search results of few queries
> Max Docs: 1
> Num Docs: 1
> Current Version: 1688707923968.0
> Term count: 66
>
> Enter query string: dignissimos
> Searching for: dignissimos
>
> 0. /home/nonLatin100Rows.csv - 0.04746387
>
>
> Search took: 0 ms.
> Screen dump took: 0 ms.
>
> Enter query string: διαχειριστής
> Searching for:
>
>
>
> Search took: 0 ms.
> Screen dump took: 0 ms.
> Thank you for your time.
>
> - Achyuth Pramod
>
> _______________________________________________
> CLucene-developers mailing list
> CLucene-developers@lists.sourceforge.net
> https://lists.sourceforge.net/lists/listinfo/clucene-developers
>
1 намерение похороны сомнительный
намерение
похороны
сомнительный
 
2 為了 通過 原因
為了
通過
原因
 
3 molestiae aut cupiditate
molestiae
aut
cupiditate
 
4 工具 孩子 世界
工具
孩子
世界
 
5 這個 雖然 狀態
這個
雖然
狀態
 
6 パン 擁する ハードウェア
パン
擁する
ハードウェア
 
7 今年 法律 系统
今年
法律
系统
 
8 已經 你們 介紹
已經
你們
介紹
 
9 וסתעד פוסיליס דלאמת
וסתעד
פוסיליס
דלאמת
 
10 illum expedita veniam
illum
expedita
veniam
 
11 工具 业务 发展
工具
业务
发展
 
12 recusandae neque dignissimos
recusandae
neque
dignissimos
 
13 你們 為了 生活
你們
為了
生活
 
14 libero eius facilis
libero
eius
facilis
 
15 maxime dignissimos eligendi
maxime
dignissimos
eligendi
 
16 ανακλύψεις διαχειριστής όσο
ανακλύψεισ
διαχειριστήσ
όσο
 
17 voluptatibus voluptatibus eius
voluptatibus
voluptatibus
eius
 
18 เป้า เมล็ด มัสยิด
เป
า
เมล
ด
ม
สย
ด
 
19 армейский мотоцикл монета
армейский
мотоцикл
монета
 
20 類別 標准 生活
類別
標准
生活
 
21 explicabo veniam autem
explicabo
veniam
autem
 
22 temporibus beatae quo
temporibus
beatae
quo
 
23 που έτσι πεδία
που
έτσι
πεδία
 
24 学生 你的 一起
学生
你的
一起
 
25 ίδιο λες πεδία
ίδιο
λεσ
πεδία
 
26 угол полоска налоговый
угол
полоска
налоговый
 
27 それ 今日 じぶんの
それ
今日
じぶんの
 
28 กตัญญู ขี้ไคล แก้
กต
ญญ
ข
ไคล
แก
 
29 порог приличный пространство
порог
приличный
пространство
 
30 ea deserunt iusto
ea
deserunt
iusto
 
31 לקטוס ברשג איפסום
לקטוס
ברשג
איפסום
 
32 ไอโอเอส เผื่อ ผสม
ไอโอเอส
เผ
อ
ผสม
 
33 ατόμου τέλειοι πρώτης
ατόμου
τέλειοι
πρώτησ
 
34 מנק כאנה בעריר
מנק
כאנה
בעריר
 
35 編組 必要 転倒
編組
必要
転倒
 
36 目的 差別する 風景
目的
差別する
風景
 
37 veritatis numquam animi
veritatis
numquam
animi
 
38 銷售 其他 次數
銷售
其他
次數
 
39 サワー 衝突 供給
サワー
衝突
供給
 
40 earum praesentium ullam
earum
praesentium
ullam
 
41 גדדיש בורק? למרקל
גדדיש
בורק
למרקל
 
42 系統 服務 學校
系統
服務
學校
 
43 voluptatum aliquid neque
voluptatum
aliquid
neque
 
44 солнце выражение пятеро
солнце
выражение
пятеро
 
45 コミュニケーション 溝 電池
コミュニケーション
溝
電池
 
46 numquam provident porro
numquam
provident
porro
 
47 欢迎 这里 在线
欢迎
这里
在线
 
48 程序 問題 基本
程序
問題
基本
 
49 corporis alias dolor
corporis
alias
dolor
 
50 возбуждение изба выбирать
возбуждение
изба
выбирать
 
51 умолять мимо пробовать
умолять
мимо
пробовать
 
52 כאנה קורוס דלאמת
כאנה
קורוס
דלאמת
 
53 officia tempore hic
officia
tempore
hic
 
54 じぶんの 中央 厳しい
じぶんの
中央
厳しい
 
55 distinctio impedit at
distinctio
impedit
 
56 時候 覺得 相關
時候
覺得
相關
 
57 εκτελέσει πάρα δεν
εκτελέσει
πάρα
δεν
 
58 น้ำเย็น คอก ตู่
น
ำเย
น
คอก
ต
 
59 pariatur doloremque quibusdam
pariatur
doloremque
quibusdam
 
60 συνεχώς βγήκε γνωστή
συνεχώσ
βγήκε
γνωστή
 
61 et reprehenderit inventore
et
reprehenderit
inventore
 
62 וחאית להאמית זותה
וחאית
להאמית
זותה
 
63 εδώ φίλος εικόνες
εδώ
φίλοσ
εικόνεσ
 
64 主婦 倫理 ヒール
主婦
倫理
ヒール
 
65 推薦 設計 學習
推薦
設計
學習
 
66 научить монета прощение
научить
монета
прощение
 
67 νιρβάνα ανά μέχρι
νιρβάνα
ανά
μέχρι
 
68 culpa praesentium rem
culpa
praesentium
rem
 
69 通過 帖子 隻有
通過
帖子
隻有
 
70 コミュニケーション 画面 屋根裏
コミュニケーション
画面
屋根裏
 
71 政府 一些 的是
政府
一些
的是
 
72 ข้าว อิสลาม นิ่ม
ข
าว
อ
สลาม
น
ม
 
73 possimus nostrum rem
possimus
nostrum
rem
 
74 свежий чем некоторый
свежий
чем
некоторый
 
75 איאקוליס שהכים נונסטי
איאקוליס
שהכים
נונסטי
 
76 ומרגשח איפסום קונדימנטום
ומרגשח
איפסום
קונדימנטום
 
77 控制 歡迎 隻有
控制
歡迎
隻有
 
78 סטום ולחת תוק
סטום
ולחת
תוק
 
79 更多 一點 一樣
更多
一點
一樣
 
80 介绍 为什 系列
介绍
为什
系列
 
81 会员 由于 程序
会员
由于
程序
 
82 任何 計劃 地方
任何
計劃
地方
 
83 quos sapiente animi
quos
sapiente
animi
 
84 cum iste laboriosam
cum
iste
laboriosam
 
85 amet recusandae itaque
amet
recusandae
itaque
 
86 孩子 孩子 主要
孩子
孩子
主要
 
87 поговорить написать изучить
поговорить
написать
изучить
 
88 คำสั่ง สลับ ล่อ
คำส
ง
สล
บ
ล
อ
 
89 earum mollitia laborum
earum
mollitia
laborum
 
90 minima sed incidunt
minima
sed
incidunt
 
91 мальчишка разводить провинция
мальчишка
разводить
провинция
 
92 יבש מורגם קונדימנטום
יבש
מורגם
קונדימנטום
 
93 朋友 最新 事情
朋友
最新
事情
 
94 repudiandae nemo amet
repudiandae
nemo
amet
 
95 нажать тысяча выраженный
нажать
тысяча
выраженный
 
96 バーゲン ハードウェア 狭い
バーゲン
ハードウェア
狭い
 
97 狭い 癌 動物
狭い
癌
動物
 
98 карандаш оставить один
карандаш
оставить
один
 
99 указанный тюрьма поговорить
указанный
тюрьма
поговорить
 
100 צורק לתיג נמרגי
צורק
לתיג
נמרגי
1 намерение похороны сомнительный
намерение
похороны
сомнительный

2 為了 通過 原因
為
了
通
過
原
因

3 molestiae aut cupiditate
molestiae
aut
cupiditate

4 工具 孩子 世界
工
具
孩
子
世
界

5 這個 雖然 狀態
這
個
雖
然
狀
態

6 パン 擁する ハードウェア
パン
擁
す
る
ハードウェア

7 今年 法律 系统
今
年
法
律
系
统

8 已經 你們 介紹
已
經
你
們
介
紹

9 וסתעד פוסיליס דלאמת
וסתעד
פוסיליס
דלאמת

10 illum expedita veniam
illum
expedita
veniam

11 工具 业务 发展
工
具
业
务
发
展

12 recusandae neque dignissimos
recusandae
neque
dignissimos

13 你們 為了 生活
你
們
為
了
生
活

14 libero eius facilis
libero
eius
facilis

15 maxime dignissimos eligendi
maxime
dignissimos
eligendi

16 ανακλύψεις διαχειριστής όσο
ανακλύψεις
διαχειριστής
όσο

17 voluptatibus voluptatibus eius
voluptatibus
voluptatibus
eius

18 เป้า เมล็ด มัสยิด
เป้า
เมล็ด
มัสยิด

19 армейский мотоцикл монета
армейский
мотоцикл
монета

20 類別 標准 生活
類
別
標
准
生
活

21 explicabo veniam autem
explicabo
veniam
autem

22 temporibus beatae quo
temporibus
beatae
quo

23 που έτσι πεδία
που
έτσι
πεδία

24 学生 你的 一起
学
生
你
的
一
起

25 ίδιο λες πεδία
ίδιο
λες
πεδία

26 угол полоска налоговый
угол
полоска
налоговый

27 それ 今日 じぶんの
そ
れ
今
日
じ
ぶ
ん
の

28 กตัญญู ขี้ไคล แก้
กตัญญู
ขี้ไคล
แก้

29 порог приличный пространство
порог
приличный
пространство

30 ea deserunt iusto
ea
deserunt
iusto

31 לקטוס ברשג איפסום
לקטוס
ברשג
איפסום

32 ไอโอเอส เผื่อ ผสม
ไอโอเอส
เผื่อ
ผสม

33 ατόμου τέλειοι πρώτης
ατόμου
τέλειοι
πρώτης

34 מנק כאנה בעריר
מנק
כאנה
בעריר

35 編組 必要 転倒
編
組
必
要
転
倒

36 目的 差別する 風景
目
的
差
別
す
る
風
景

37 veritatis numquam animi
veritatis
numquam
animi

38 銷售 其他 次數
銷
售
其
他
次
數

39 サワー 衝突 供給
サワー
衝
突
供
給

40 earum praesentium ullam
earum
praesentium
ullam

41 גדדיש בורק? למרקל
גדדיש
בורק
למרקל

42 系統 服務 學校
系
統
服
務
學
校

43 voluptatum aliquid neque
voluptatum
aliquid
neque

44 солнце выражение пятеро
солнце
выражение
пятеро

45 コミュニケーション 溝 電池
コミュニケーション
溝
電
池

46 numquam provident porro
numquam
provident
porro

47 欢迎 这里 在线
欢
迎
这
里
在
线

48 程序 問題 基本
程
序
問
題
基
本

49 corporis alias dolor
corporis
alias
dolor

50 возбуждение изба выбирать
возбуждение
изба
выбирать

51 умолять мимо пробовать
умолять
мимо
пробовать

52 כאנה קורוס דלאמת
כאנה
קורוס
דלאמת

53 officia tempore hic
officia
tempore
hic

54 じぶんの 中央 厳しい
じ
ぶ
ん
の
中
央
厳
し
い

55 distinctio impedit at
distinctio
impedit
at

56 時候 覺得 相關
時
候
覺
得
相
關

57 εκτελέσει πάρα δεν
εκτελέσει
πάρα
δεν

58 น้ำเย็น คอก ตู่
น้ำเย็น
คอก
ตู่

59 pariatur doloremque quibusdam
pariatur
doloremque
quibusdam

60 συνεχώς βγήκε γνωστή
συνεχώς
βγήκε
γνωστή

61 et reprehenderit inventore
et
reprehenderit
inventore

62 וחאית להאמית זותה
וחאית
להאמית
זותה

63 εδώ φίλος εικόνες
εδώ
φίλος
εικόνες

64 主婦 倫理 ヒール
主
婦
倫
理
ヒール

65 推薦 設計 學習
推
薦
設
計
學
習

66 научить монета прощение
научить
монета
прощение

67 νιρβάνα ανά μέχρι
νιρβάνα
ανά
μέχρι

68 culpa praesentium rem
culpa
praesentium
rem

69 通過 帖子 隻有
通
過
帖
子
隻
有

70 コミュニケーション 画面 屋根裏
コミュニケーション
画
面
屋
根
裏

71 政府 一些 的是
政
府
一
些
的
是

72 ข้าว อิสลาม นิ่ม
ข้าว
อิสลาม
นิ่ม

73 possimus nostrum rem
possimus
nostrum
rem

74 свежий чем некоторый
свежий
чем
некоторый

75 איאקוליס שהכים נונסטי
איאקוליס
שהכים
נונסטי

76 ומרגשח איפסום קונדימנטום
ומרגשח
איפסום
קונדימנטום

77 控制 歡迎 隻有
控
制
歡
迎
隻
有

78 סטום ולחת תוק
סטום
ולחת
תוק

79 更多 一點 一樣
更
多
一
點
一
樣

80 介绍 为什 系列
介
绍
为
什
系
列

81 会员 由于 程序
会
员
由
于
程
序

82 任何 計劃 地方
任
何
計
劃
地
方

83 quos sapiente animi
quos
sapiente
animi

84 cum iste laboriosam
cum
iste
laboriosam

85 amet recusandae itaque
amet
recusandae
itaque

86 孩子 孩子 主要
孩
子
孩
子
主
要

87 поговорить написать изучить
поговорить
написать
изучить

88 คำสั่ง สลับ ล่อ
คำสั่ง
สลับ
ล่อ

89 earum mollitia laborum
earum
mollitia
laborum

90 minima sed incidunt
minima
sed
incidunt

91 мальчишка разводить провинция
мальчишка
разводить
провинция

92 יבש מורגם קונדימנטום
יבש
מורגם
קונדימנטום

93 朋友 最新 事情
朋
友
最
新
事
情

94 repudiandae nemo amet
repudiandae
nemo
amet

95 нажать тысяча выраженный
нажать
тысяча
выраженный

96 バーゲン ハードウェア 狭い
バーゲン
ハードウェア
狭
い

97 狭い 癌 動物
狭
い
癌
動
物

98 карандаш оставить один
карандаш
оставить
один

99 указанный тюрьма поговорить
указанный
тюрьма
поговорить

100 צורק לתיג נמרגי
צורק
לתיג
נמרגי
_______________________________________________
CLucene-developers mailing list
CLucene-developers@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/clucene-developers

Reply via email to