Dear developers,

I am using CLucene in my project and I would like to inquire about the
UTF-8 encoding support in the Standard Analyzer. Specifically, I would
like to know if the Standard Analyzer handles tokenization and text
processing correctly for non-Latin UTF-8 encoded text.

Could you please confirm if the Standard Analyzer in CLucene has
built-in support for UTF-8 encoded text? If not, are there any
recommended alternatives or additional analyzers that provide better
support for non-Latin UTF-8 text?

The below is the search results of few queries
Max Docs: 1
Num Docs: 1
Current Version: 1688707923968.0
Term count: 66

Enter query string: dignissimos
Searching for: dignissimos

0. /home/nonLatin100Rows.csv - 0.04746387


Search took: 0 ms.
Screen dump took: 0 ms.

Enter query string: διαχειριστής
Searching for:



Search took: 0 ms.
Screen dump took: 0 ms.
Thank you for your time.

- Achyuth Pramod
намерение похороны сомнительный
為了 通過 原因
molestiae aut cupiditate
工具 孩子 世界
這個 雖然 狀態
パン 擁する ハードウェア
今年 法律 系统
已經 你們 介紹
וסתעד פוסיליס דלאמת
illum expedita veniam
工具 业务 发展
recusandae neque dignissimos
你們 為了 生活
libero eius facilis
maxime dignissimos eligendi
ανακλύψεις διαχειριστής όσο
voluptatibus voluptatibus eius
เป้า เมล็ด มัสยิด
армейский мотоцикл монета
類別 標准 生活
explicabo veniam autem
temporibus beatae quo
που έτσι πεδία
学生 你的 一起
ίδιο λες πεδία
угол полоска налоговый
それ 今日 じぶんの
กตัญญู ขี้ไคล แก้
порог приличный пространство
ea deserunt iusto
לקטוס ברשג איפסום
ไอโอเอส เผื่อ ผสม
ατόμου τέλειοι πρώτης
מנק כאנה בעריר
編組 必要 転倒
目的 差別する 風景
veritatis numquam animi
銷售 其他 次數
サワー 衝突 供給
earum praesentium ullam
גדדיש בורק? למרקל
系統 服務 學校
voluptatum aliquid neque
солнце выражение пятеро
コミュニケーション 溝 電池
numquam provident porro
欢迎 这里 在线
程序 問題 基本
corporis alias dolor
возбуждение изба выбирать
умолять мимо пробовать
כאנה קורוס דלאמת
officia tempore hic
じぶんの 中央 厳しい
distinctio impedit at
時候 覺得 相關
εκτελέσει πάρα δεν
น้ำเย็น คอก ตู่
pariatur doloremque quibusdam
συνεχώς βγήκε γνωστή
et reprehenderit inventore
וחאית להאמית זותה
εδώ φίλος εικόνες
主婦 倫理 ヒール
推薦 設計 學習
научить монета прощение
νιρβάνα ανά μέχρι
culpa praesentium rem
通過 帖子 隻有
コミュニケーション 画面 屋根裏
政府 一些 的是
ข้าว อิสลาม นิ่ม
possimus nostrum rem
свежий чем некоторый
איאקוליס שהכים נונסטי
ומרגשח איפסום קונדימנטום
控制 歡迎 隻有
סטום ולחת תוק
更多 一點 一樣
介绍 为什 系列
会员 由于 程序
任何 計劃 地方
quos sapiente animi
cum iste laboriosam
amet recusandae itaque
孩子 孩子 主要
поговорить написать изучить
คำสั่ง สลับ ล่อ
earum mollitia laborum
minima sed incidunt
мальчишка разводить провинция
יבש מורגם קונדימנטום
朋友 最新 事情
repudiandae nemo amet
нажать тысяча выраженный
バーゲン ハードウェア 狭い
狭い 癌 動物
карандаш оставить один
указанный тюрьма поговорить
צורק לתיג נמרגי
_______________________________________________
CLucene-developers mailing list
CLucene-developers@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/clucene-developers

Reply via email to