Dear developers, I am using CLucene in my project and I would like to inquire about the UTF-8 encoding support in the Standard Analyzer. Specifically, I would like to know if the Standard Analyzer handles tokenization and text processing correctly for non-Latin UTF-8 encoded text.
Could you please confirm if the Standard Analyzer in CLucene has built-in support for UTF-8 encoded text? If not, are there any recommended alternatives or additional analyzers that provide better support for non-Latin UTF-8 text? The below is the search results of few queries Max Docs: 1 Num Docs: 1 Current Version: 1688707923968.0 Term count: 66 Enter query string: dignissimos Searching for: dignissimos 0. /home/nonLatin100Rows.csv - 0.04746387 Search took: 0 ms. Screen dump took: 0 ms. Enter query string: διαχειριστής Searching for: Search took: 0 ms. Screen dump took: 0 ms. Thank you for your time. - Achyuth Pramod
намерение похороны сомнительный 為了 通過 原因 molestiae aut cupiditate 工具 孩子 世界 這個 雖然 狀態 パン 擁する ハードウェア 今年 法律 系统 已經 你們 介紹 וסתעד פוסיליס דלאמת illum expedita veniam 工具 业务 发展 recusandae neque dignissimos 你們 為了 生活 libero eius facilis maxime dignissimos eligendi ανακλύψεις διαχειριστής όσο voluptatibus voluptatibus eius เป้า เมล็ด มัสยิด армейский мотоцикл монета 類別 標准 生活 explicabo veniam autem temporibus beatae quo που έτσι πεδία 学生 你的 一起 ίδιο λες πεδία угол полоска налоговый それ 今日 じぶんの กตัญญู ขี้ไคล แก้ порог приличный пространство ea deserunt iusto לקטוס ברשג איפסום ไอโอเอส เผื่อ ผสม ατόμου τέλειοι πρώτης מנק כאנה בעריר 編組 必要 転倒 目的 差別する 風景 veritatis numquam animi 銷售 其他 次數 サワー 衝突 供給 earum praesentium ullam גדדיש בורק? למרקל 系統 服務 學校 voluptatum aliquid neque солнце выражение пятеро コミュニケーション 溝 電池 numquam provident porro 欢迎 这里 在线 程序 問題 基本 corporis alias dolor возбуждение изба выбирать умолять мимо пробовать כאנה קורוס דלאמת officia tempore hic じぶんの 中央 厳しい distinctio impedit at 時候 覺得 相關 εκτελέσει πάρα δεν น้ำเย็น คอก ตู่ pariatur doloremque quibusdam συνεχώς βγήκε γνωστή et reprehenderit inventore וחאית להאמית זותה εδώ φίλος εικόνες 主婦 倫理 ヒール 推薦 設計 學習 научить монета прощение νιρβάνα ανά μέχρι culpa praesentium rem 通過 帖子 隻有 コミュニケーション 画面 屋根裏 政府 一些 的是 ข้าว อิสลาม นิ่ม possimus nostrum rem свежий чем некоторый איאקוליס שהכים נונסטי ומרגשח איפסום קונדימנטום 控制 歡迎 隻有 סטום ולחת תוק 更多 一點 一樣 介绍 为什 系列 会员 由于 程序 任何 計劃 地方 quos sapiente animi cum iste laboriosam amet recusandae itaque 孩子 孩子 主要 поговорить написать изучить คำสั่ง สลับ ล่อ earum mollitia laborum minima sed incidunt мальчишка разводить провинция יבש מורגם קונדימנטום 朋友 最新 事情 repudiandae nemo amet нажать тысяча выраженный バーゲン ハードウェア 狭い 狭い 癌 動物 карандаш оставить один указанный тюрьма поговорить צורק לתיג נמרגי
_______________________________________________ CLucene-developers mailing list CLucene-developers@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/clucene-developers