Si há buscador de sitios em galego: www.google.pt --> "páginas escritas em Português"
E nom estou a falar de galego reintegrado, os sitios em galego RAG tamém saem, provade :). > > Unha das cousas que falta en Galicia son os buscadores de paxinas en > galego. Penso que, aparte de todo interes > nacionalista/patriotico/galeguista que poida ter este feito, esta a > provocar unha inaccesibilidade destas paxinas, que perden lectores con > respecto a outras en castelan. A consecuencia final de todo isto e que > ninguen publica en galego na internet xa que de seguro vana ter menos > ligazons. Se nos fixamos no buscador Google.es, este non conta cunha > funcion para buscar paxinas cuio contido este en lingua galega, o > contrario que ocorre co castelan, euskera, e catalan. > > Alguen sabe porque? Eu tenho unha sospeita. Existen varias formas de > detectar en que lingua esta un texto. Moi eficaces sobre todo as basadas > en redes neuronais. Pero cando o que estas clasificando son millons de > paxinas, unha rede neuronal resulta demasiado custosa en canto a termos > de rendemento, asi que o que fan alguns programas aranha como Nutch[1], > programa aranha de codigo aberto que forma parte do proxeto Lucene de > Apache, e facer unha busqueda basada en modelos N-Gram [2] que se > obtenhen das frecuencias de aparicion de grupos de n caracteres seguidos > (xeralmente 1, 2 e 3 caracteres, por ex. "vac") [4]. Para saber en que > lingua esta un texto se compara o modelo resultante do texto en cuestion > cos de todalas linguas (xeralmente se comparan os 300 primeiros n-gram) > e se calcula a distancia entre a posicion dun elemento nunha e outra > lista ou ben a diferencia entre a frecuencia. O texto categorizarase > como pertencente a lingua cuias sumas de distancias sexan menores. Tamen > pode chegarse a conclusion de que pode pertencer a duas linguas con > probabilidades semellantes. Como e normal o caracter mais comun sempre e > o espazo (_), pero ainda asi resulta moi util xa que linguas como o > aleman tenhen palabras moi longas o cal fai diminuir sustancialmente a > frecuencia de aparicion. O feito de que so se comproben as trescentas > primeiras cadeas debese a que por experiencia sabese que a partires de > enton o modelo volvese moi dependente do tema que trate o texto, sendo > tamen moi util este sistema para clasificar artigos por temas. > > A que ven todo isto? Resulta que existen modelos n-gram publicamente > disponibles para 52 linguas[3], entre as que se atopan o euskera e o > catalan pero non o galego. Seguramente estas son as que emprega Google > na sua deteccion da linguaxe e por iso a maioria dos textos en galego > figuran como textos en castelan. Para os que pensen que Google detecta > moi mal o idioma dicirvos que estos modelos se estiman que acertan nun > 89% das veces. > > Espero que isto sirva de resumo para os non introducidos, non sei se > isto dase en algunha asignatura da facultade. Como curiosidade dicir que > este sistema empregouse tamen en criptografia. Un dos sistemas de > encriptacion mais sinxelos (non moi eficaz por certo) e sustituir cada > letra do abecedario por outra o azar. O texto resultante e ilexible a > simple vista, pero obtendo un modelo podese saber cales foron as > sustitucions feitas basandose na sua frecuencia. > > Actualmente estou pensando en facer un modelo para o galego. A gran > cuestion e que corpus linguistico empregar para a crear o modelo. Outra > cuestion e a diferencia existente entre o galego reintegracionista e o > normativo, ata o punto que o abecedario que empregan e distito e quizais > fose mellor facer un modelo que soamente cubra o galego normativo > (Estaria moi complicado distinguir o galego reintegracionista do > portugues). > > Outro dos resultados dos meus experimentos son estes feeds RSS para > alguns xornais galegos que resultan moi utiles todolos dias pola manha: > > * Canal Ciencia: http://ramonantonio.net/xml/canalciencia.xml > * Codigo Cero: http://ramonantonio.net/xml/codigocero.xml > * Galicia Hoxe: http://ramonantonio.net/xml/galiciahoxe.xml > * Vieiros: http://ramonantonio.net/xml/vieiros.xml > > > > [1] http://www.let.rug.nl/~vannoord/TextCat/ > [2] http://citeseer.ist.psu.edu/68861.html > [3] http://lucene.apache.org/nutch/about.html > [4] http://ramonantonio.net/contents/modelo-ngram-galego > > > > -- > Ramon Antonio Parada > Skype: ramon.parada > http://ramonantonio.net/ > > _______________________________________________ > Trasno mailing list > tra...@ceu.fi.udc.es > http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno > _______________________________________________ Trasno mailing list tra...@ceu.fi.udc.es http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno