Zdravím,
to, co hledáte, je buď lemmatizace vstupního textu (převedení na základní
tvary), nebo naopak stemming klíčových slov (odvození dalších tvarů ze
základního tvaru). Nějaké knihovny určitě existují pro Lucene.

Filip Jirsák


2014-06-11 16:48 GMT+02:00 Ivan Polak <ivan.po...@f4s.sk>:

> Zdravim konferenciu,
>
> potreboval by som poradit s analyzou textu. Texty su v slovencine a
> potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
> definovane. Napriklad:
>
> Definovana mnozina klucovych slov:
>
> {"Bratislava", "Zvolen", "Košice", "Poprad"}
>
> text na analyzu:
>
> "Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
> dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
> atraktívnych destinácií."
>
> v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
> splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
> v definovanej mnozine.
>
> ale:
>
> "Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
> regióny. „Investície do rekonštrukcie existujúcich budov a následné
> zvyšovanie ..."
>
> a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
> je sklonovanie.
>
> aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
> by dokazala hore popisane v slovencine, teda vyhladavat definovane
> slova a aj ich vysklonovane tvary.
>
> dakujem
>
> Ivan
>

Odpovedet emailem