Zdravím, to, co hledáte, je buď lemmatizace vstupního textu (převedení na základní tvary), nebo naopak stemming klíčových slov (odvození dalších tvarů ze základního tvaru). Nějaké knihovny určitě existují pro Lucene.
Filip Jirsák 2014-06-11 16:48 GMT+02:00 Ivan Polak <ivan.po...@f4s.sk>: > Zdravim konferenciu, > > potreboval by som poradit s analyzou textu. Texty su v slovencine a > potreboval by som v nich vyhladat klucove slova, ktore mam dopredu > definovane. Napriklad: > > Definovana mnozina klucovych slov: > > {"Bratislava", "Zvolen", "Košice", "Poprad"} > > text na analyzu: > > "Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný > dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo > atraktívnych destinácií." > > v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie > splitnut to podla medzier a potom jednotlive slova z textu vyhladavat > v definovanej mnozine. > > ale: > > "Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie > regióny. „Investície do rekonštrukcie existujúcich budov a následné > zvyšovanie ..." > > a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine > je sklonovanie. > > aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora > by dokazala hore popisane v slovencine, teda vyhladavat definovane > slova a aj ich vysklonovane tvary. > > dakujem > > Ivan >