Re: analyza textu a urcenie klucovych slov
Zdravím, to, co hledáte, je buď lemmatizace vstupního textu (převedení na základní tvary), nebo naopak stemming klíčových slov (odvození dalších tvarů ze základního tvaru). Nějaké knihovny určitě existují pro Lucene. Filip Jirsák 2014-06-11 16:48 GMT+02:00 Ivan Polak ivan.po...@f4s.sk: Zdravim konferenciu, potreboval by som poradit s analyzou textu. Texty su v slovencine a potreboval by som v nich vyhladat klucove slova, ktore mam dopredu definovane. Napriklad: Definovana mnozina klucovych slov: {Bratislava, Zvolen, Košice, Poprad} text na analyzu: Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo atraktívnych destinácií. v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie splitnut to podla medzier a potom jednotlive slova z textu vyhladavat v definovanej mnozine. ale: Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie regióny. „Investície do rekonštrukcie existujúcich budov a následné zvyšovanie ... a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine je sklonovanie. aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora by dokazala hore popisane v slovencine, teda vyhladavat definovane slova a aj ich vysklonovane tvary. dakujem Ivan
Re: analyza textu a urcenie klucovych slov
Prisaham, ze to neni pokus o Czech/Slovak flame :-), ale kdyz existuje [1], urcite by to slo implementovat i slovensky... [1] http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html#czech-analyzer On 06/11/2014 04:48 PM, Ivan Polak wrote: Zdravim konferenciu, potreboval by som poradit s analyzou textu. Texty su v slovencine a potreboval by som v nich vyhladat klucove slova, ktore mam dopredu definovane. Napriklad: Definovana mnozina klucovych slov: {Bratislava, Zvolen, Košice, Poprad} text na analyzu: Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo atraktívnych destinácií. v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie splitnut to podla medzier a potom jednotlive slova z textu vyhladavat v definovanej mnozine. ale: Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie regióny. „Investície do rekonštrukcie existujúcich budov a následné zvyšovanie ... a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine je sklonovanie. aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora by dokazala hore popisane v slovencine, teda vyhladavat definovane slova a aj ich vysklonovane tvary. dakujem Ivan
Re: analyza textu a urcenie klucovych slov
dakujem za reakcie :-) doteraz som pouzival SOLR pre Lucene, skusim pozriet ElasticSearch a pripadne ako pisete spravit pre Slovencinu. zacal som tu, je to stemmer pre slovensky jazyk: http://vi.ikt.ui.sav.sk/Projekty/Projekty_2008%2F%2F2009/Hana_Pifkov%C3%A1_-_Stemer je to celkom dobre napisane, su tam aj 2 demo aplikacie, len stemmer a potom spojenie s lucene. Ivan 2014-06-11 16:59 GMT+02:00 Michal Babacek michal.baba...@gmail.com: Prisaham, ze to neni pokus o Czech/Slovak flame :-), ale kdyz existuje [1], urcite by to slo implementovat i slovensky... [1] http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html#czech-analyzer On 06/11/2014 04:48 PM, Ivan Polak wrote: Zdravim konferenciu, potreboval by som poradit s analyzou textu. Texty su v slovencine a potreboval by som v nich vyhladat klucove slova, ktore mam dopredu definovane. Napriklad: Definovana mnozina klucovych slov: {Bratislava, Zvolen, Košice, Poprad} text na analyzu: Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo atraktívnych destinácií. v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie splitnut to podla medzier a potom jednotlive slova z textu vyhladavat v definovanej mnozine. ale: Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie regióny. „Investície do rekonštrukcie existujúcich budov a následné zvyšovanie ... a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine je sklonovanie. aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora by dokazala hore popisane v slovencine, teda vyhladavat definovane slova a aj ich vysklonovane tvary. dakujem Ivan
Re: analyza textu a urcenie klucovych slov
Někde jsem to řešili, že jako klíčová slova jsme dávali slovní základ a ten pak hledali. Celkem to fungovalo. Takže {Bratislav, Zvolen, Košic, Poprad} Michal Dne 11.6.2014 16:48, Ivan Polak napsal(a): Zdravim konferenciu, potreboval by som poradit s analyzou textu. Texty su v slovencine a potreboval by som v nich vyhladat klucove slova, ktore mam dopredu definovane. Napriklad: Definovana mnozina klucovych slov: {Bratislava, Zvolen, Košice, Poprad} text na analyzu: Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo atraktívnych destinácií. v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie splitnut to podla medzier a potom jednotlive slova z textu vyhladavat v definovanej mnozine. ale: Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie regióny. „Investície do rekonštrukcie existujúcich budov a následné zvyšovanie ... a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine je sklonovanie. aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora by dokazala hore popisane v slovencine, teda vyhladavat definovane slova a aj ich vysklonovane tvary. dakujem Ivan
Re: analyza textu a urcenie klucovych slov
Pozdravujem, skuste pozriet niektory z projektov v [1]. Prakticke skusenosti sice nemam, ale viackrat sa spominalo pouzitie hunspellu, napr. v [2]. [1] http://www.sk-spell.sk.cx/ [2] http://www.zdrojak.cz/clanky/elasticsearch-vyhledavame-hezky-cesky-ii-a-taky-slovensky/ On 11.6.2014 16:48, Ivan Polak wrote: Zdravim konferenciu, potreboval by som poradit s analyzou textu. Texty su v slovencine a potreboval by som v nich vyhladat klucove slova, ktore mam dopredu definovane. Napriklad: Definovana mnozina klucovych slov: {Bratislava, Zvolen, Košice, Poprad} text na analyzu: Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo atraktívnych destinácií. v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie splitnut to podla medzier a potom jednotlive slova z textu vyhladavat v definovanej mnozine. ale: Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie regióny. „Investície do rekonštrukcie existujúcich budov a následné zvyšovanie ... a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine je sklonovanie. aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora by dokazala hore popisane v slovencine, teda vyhladavat definovane slova a aj ich vysklonovane tvary. dakujem Ivan .