Re: analyza textu a urcenie klucovych slov

2014-06-11 Tema obsahu Filip Jirsák
Zdravím,
to, co hledáte, je buď lemmatizace vstupního textu (převedení na základní
tvary), nebo naopak stemming klíčových slov (odvození dalších tvarů ze
základního tvaru). Nějaké knihovny určitě existují pro Lucene.

Filip Jirsák


2014-06-11 16:48 GMT+02:00 Ivan Polak ivan.po...@f4s.sk:

 Zdravim konferenciu,

 potreboval by som poradit s analyzou textu. Texty su v slovencine a
 potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
 definovane. Napriklad:

 Definovana mnozina klucovych slov:

 {Bratislava, Zvolen, Košice, Poprad}

 text na analyzu:

 Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
 dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
 atraktívnych destinácií.

 v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
 splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
 v definovanej mnozine.

 ale:

 Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
 regióny. „Investície do rekonštrukcie existujúcich budov a následné
 zvyšovanie ...

 a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
 je sklonovanie.

 aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
 by dokazala hore popisane v slovencine, teda vyhladavat definovane
 slova a aj ich vysklonovane tvary.

 dakujem

 Ivan



Re: analyza textu a urcenie klucovych slov

2014-06-11 Tema obsahu Michal Babacek

Prisaham, ze to neni pokus o Czech/Slovak flame :-),
ale kdyz existuje [1], urcite by to slo implementovat i slovensky...


[1] 
http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html#czech-analyzer


On 06/11/2014 04:48 PM, Ivan Polak wrote:

Zdravim konferenciu,

potreboval by som poradit s analyzou textu. Texty su v slovencine a
potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
definovane. Napriklad:

Definovana mnozina klucovych slov:

{Bratislava, Zvolen, Košice, Poprad}

text na analyzu:

Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
atraktívnych destinácií.

v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
v definovanej mnozine.

ale:

Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
regióny. „Investície do rekonštrukcie existujúcich budov a následné
zvyšovanie ...

a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
je sklonovanie.

aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
by dokazala hore popisane v slovencine, teda vyhladavat definovane
slova a aj ich vysklonovane tvary.

dakujem

Ivan





Re: analyza textu a urcenie klucovych slov

2014-06-11 Tema obsahu Ivan Polak
dakujem za reakcie :-) doteraz som pouzival SOLR pre Lucene, skusim
pozriet ElasticSearch a pripadne ako pisete spravit pre Slovencinu.

zacal som tu, je to stemmer pre slovensky jazyk:

http://vi.ikt.ui.sav.sk/Projekty/Projekty_2008%2F%2F2009/Hana_Pifkov%C3%A1_-_Stemer

je to celkom dobre napisane, su tam aj 2 demo aplikacie, len stemmer a
potom spojenie s lucene.

Ivan

2014-06-11 16:59 GMT+02:00 Michal Babacek michal.baba...@gmail.com:
 Prisaham, ze to neni pokus o Czech/Slovak flame :-),
 ale kdyz existuje [1], urcite by to slo implementovat i slovensky...


 [1]
 http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/analysis-lang-analyzer.html#czech-analyzer


 On 06/11/2014 04:48 PM, Ivan Polak wrote:

 Zdravim konferenciu,

 potreboval by som poradit s analyzou textu. Texty su v slovencine a
 potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
 definovane. Napriklad:

 Definovana mnozina klucovych slov:

 {Bratislava, Zvolen, Košice, Poprad}

 text na analyzu:

 Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
 dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
 atraktívnych destinácií.

 v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
 splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
 v definovanej mnozine.

 ale:

 Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
 regióny. „Investície do rekonštrukcie existujúcich budov a následné
 zvyšovanie ...

 a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
 je sklonovanie.

 aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
 by dokazala hore popisane v slovencine, teda vyhladavat definovane
 slova a aj ich vysklonovane tvary.

 dakujem

 Ivan




Re: analyza textu a urcenie klucovych slov

2014-06-11 Tema obsahu Michal Barna
Někde jsem to řešili, že jako klíčová slova jsme dávali slovní základ a 
ten pak hledali. Celkem to fungovalo.


Takže
{Bratislav, Zvolen, Košic, Poprad}


Michal

Dne 11.6.2014 16:48, Ivan Polak napsal(a):

Zdravim konferenciu,

potreboval by som poradit s analyzou textu. Texty su v slovencine a
potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
definovane. Napriklad:

Definovana mnozina klucovych slov:

{Bratislava, Zvolen, Košice, Poprad}

text na analyzu:

Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
atraktívnych destinácií.

v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
v definovanej mnozine.

ale:

Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
regióny. „Investície do rekonštrukcie existujúcich budov a následné
zvyšovanie ...

a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
je sklonovanie.

aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
by dokazala hore popisane v slovencine, teda vyhladavat definovane
slova a aj ich vysklonovane tvary.

dakujem

Ivan






Re: analyza textu a urcenie klucovych slov

2014-06-11 Tema obsahu Robert Novotny

Pozdravujem,
skuste pozriet niektory z projektov v [1]. Prakticke skusenosti sice
nemam, ale viackrat sa spominalo pouzitie hunspellu, napr. v [2].

[1] http://www.sk-spell.sk.cx/
[2] 
http://www.zdrojak.cz/clanky/elasticsearch-vyhledavame-hezky-cesky-ii-a-taky-slovensky/


On 11.6.2014 16:48, Ivan Polak wrote:

Zdravim konferenciu,

potreboval by som poradit s analyzou textu. Texty su v slovencine a
potreboval by som v nich vyhladat klucove slova, ktore mam dopredu
definovane. Napriklad:

Definovana mnozina klucovych slov:

{Bratislava, Zvolen, Košice, Poprad}

text na analyzu:

Vitajte na oficiálnej stránke Letiska Bratislava! Ako významný
dopravný uzol v stredoeurópskom regióne Vám ponúkame množstvo
atraktívnych destinácií.

v tomto texte nie je problem, aj ked by som pouzil primitivne riesenie
splitnut to podla medzier a potom jednotlive slova z textu vyhladavat
v definovanej mnozine.

ale:

Po Bratislave by sa tak mohli dočkať nových nemocníc aj ďalšie
regióny. „Investície do rekonštrukcie existujúcich budov a následné
zvyšovanie ...

a tu uz je problem z predchadzajucim pristupom, pretoze v slovencine
je sklonovanie.

aj ked velmi nepredpokladam, neviete niekto o nejakej kniznici, ktora
by dokazala hore popisane v slovencine, teda vyhladavat definovane
slova a aj ich vysklonovane tvary.

dakujem

Ivan
.