Unha das cousas que falta en Galicia son os buscadores de paxinas en galego. Penso que, aparte de todo interes nacionalista/patriotico/galeguista que poida ter este feito, esta a provocar unha inaccesibilidade destas paxinas, que perden lectores con respecto a outras en castelan. A consecuencia final de todo isto e que ninguen publica en galego na internet xa que de seguro vana ter menos ligazons. Se nos fixamos no buscador Google.es, este non conta cunha funcion para buscar paxinas cuio contido este en lingua galega, o contrario que ocorre co castelan, euskera, e catalan.
Alguen sabe porque? Eu tenho unha sospeita. Existen varias formas de detectar en que lingua esta un texto. Moi eficaces sobre todo as basadas en redes neuronais. Pero cando o que estas clasificando son millons de paxinas, unha rede neuronal resulta demasiado custosa en canto a termos de rendemento, asi que o que fan alguns programas aranha como Nutch[1], programa aranha de codigo aberto que forma parte do proxeto Lucene de Apache, e facer unha busqueda basada en modelos N-Gram [2] que se obtenhen das frecuencias de aparicion de grupos de n caracteres seguidos (xeralmente 1, 2 e 3 caracteres, por ex. "vac") [4]. Para saber en que lingua esta un texto se compara o modelo resultante do texto en cuestion cos de todalas linguas (xeralmente se comparan os 300 primeiros n-gram) e se calcula a distancia entre a posicion dun elemento nunha e outra lista ou ben a diferencia entre a frecuencia. O texto categorizarase como pertencente a lingua cuias sumas de distancias sexan menores. Tamen pode chegarse a conclusion de que pode pertencer a duas linguas con probabilidades semellantes. Como e normal o caracter mais comun sempre e o espazo (_), pero ainda asi resulta moi util xa que linguas como o aleman tenhen palabras moi longas o cal fai diminuir sustancialmente a frecuencia de aparicion. O feito de que so se comproben as trescentas primeiras cadeas debese a que por experiencia sabese que a partires de enton o modelo volvese moi dependente do tema que trate o texto, sendo tamen moi util este sistema para clasificar artigos por temas. A que ven todo isto? Resulta que existen modelos n-gram publicamente disponibles para 52 linguas[3], entre as que se atopan o euskera e o catalan pero non o galego. Seguramente estas son as que emprega Google na sua deteccion da linguaxe e por iso a maioria dos textos en galego figuran como textos en castelan. Para os que pensen que Google detecta moi mal o idioma dicirvos que estos modelos se estiman que acertan nun 89% das veces. Espero que isto sirva de resumo para os non introducidos, non sei se isto dase en algunha asignatura da facultade. Como curiosidade dicir que este sistema empregouse tamen en criptografia. Un dos sistemas de encriptacion mais sinxelos (non moi eficaz por certo) e sustituir cada letra do abecedario por outra o azar. O texto resultante e ilexible a simple vista, pero obtendo un modelo podese saber cales foron as sustitucions feitas basandose na sua frecuencia. Actualmente estou pensando en facer un modelo para o galego. A gran cuestion e que corpus linguistico empregar para a crear o modelo. Outra cuestion e a diferencia existente entre o galego reintegracionista e o normativo, ata o punto que o abecedario que empregan e distito e quizais fose mellor facer un modelo que soamente cubra o galego normativo (Estaria moi complicado distinguir o galego reintegracionista do portugues). Outro dos resultados dos meus experimentos son estes feeds RSS para alguns xornais galegos que resultan moi utiles todolos dias pola manha: * Canal Ciencia: http://ramonantonio.net/xml/canalciencia.xml * Codigo Cero: http://ramonantonio.net/xml/codigocero.xml * Galicia Hoxe: http://ramonantonio.net/xml/galiciahoxe.xml * Vieiros: http://ramonantonio.net/xml/vieiros.xml [1] http://www.let.rug.nl/~vannoord/TextCat/ [2] http://citeseer.ist.psu.edu/68861.html [3] http://lucene.apache.org/nutch/about.html [4] http://ramonantonio.net/contents/modelo-ngram-galego -- Ramon Antonio Parada Skype: ramon.parada http://ramonantonio.net/ _______________________________________________ Trasno mailing list tra...@ceu.fi.udc.es http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno