Unha das cousas que falta en Galicia son os buscadores de paxinas en
galego. Penso que, aparte de todo interes
nacionalista/patriotico/galeguista que poida ter este feito, esta a
provocar unha inaccesibilidade destas paxinas, que perden lectores con
respecto a outras en castelan. A consecuencia final de todo isto e que
ninguen publica en galego na internet xa que de seguro vana  ter menos
ligazons. Se nos fixamos no buscador Google.es, este non conta cunha
funcion para buscar paxinas cuio contido este en lingua galega, o
contrario que ocorre co castelan, euskera, e catalan.

Alguen sabe porque? Eu tenho unha sospeita. Existen varias formas de
detectar en que lingua esta un texto. Moi eficaces sobre todo as basadas
en redes neuronais. Pero cando o que estas clasificando son millons de
paxinas, unha rede neuronal resulta demasiado custosa en canto a termos
de rendemento, asi que o que fan alguns programas aranha como Nutch[1],
programa aranha de codigo aberto que forma parte do proxeto Lucene de
Apache, e facer unha busqueda basada en modelos N-Gram [2] que se
obtenhen das frecuencias de aparicion de grupos de n caracteres seguidos
(xeralmente 1, 2 e 3 caracteres, por ex. "vac") [4]. Para saber en que
lingua esta un texto se compara o modelo resultante do texto en cuestion
cos de todalas linguas (xeralmente se comparan os 300 primeiros n-gram)
e se calcula a distancia entre a posicion dun elemento nunha e outra
lista ou ben a diferencia entre a frecuencia. O texto categorizarase
como pertencente a lingua cuias sumas de distancias sexan menores. Tamen
pode chegarse a conclusion de que pode pertencer a duas linguas con
probabilidades semellantes. Como e normal o caracter mais comun sempre e
o espazo (_), pero ainda asi resulta moi util xa que linguas como o
aleman tenhen palabras moi longas o cal fai diminuir sustancialmente a
frecuencia de aparicion. O feito de que so se comproben as trescentas
primeiras cadeas debese a que por experiencia sabese que a partires de
enton o modelo volvese moi dependente do tema que trate o texto, sendo
tamen moi util este sistema para clasificar artigos por temas.

A que ven todo isto? Resulta que existen modelos n-gram publicamente
disponibles para 52 linguas[3], entre as que se atopan o euskera e o
catalan pero non o galego. Seguramente estas son as que emprega Google
na sua deteccion da linguaxe e por iso a maioria dos textos en galego
figuran como textos en castelan. Para os que pensen que Google detecta
moi mal o idioma dicirvos que estos modelos se estiman que acertan nun
89% das veces.

Espero que isto sirva de resumo para os non introducidos, non sei se
isto dase en algunha asignatura da facultade. Como curiosidade dicir que
este sistema empregouse tamen en criptografia. Un dos sistemas de
encriptacion mais sinxelos (non moi eficaz por certo) e sustituir cada
letra do abecedario por outra o azar. O texto resultante e ilexible a
simple vista, pero obtendo un modelo podese saber cales foron as
sustitucions feitas basandose na sua frecuencia.

Actualmente estou pensando en facer un modelo para o galego. A gran
cuestion e que corpus linguistico empregar para a crear o modelo. Outra
cuestion e a diferencia existente entre o galego reintegracionista e o
normativo, ata o punto que o abecedario que empregan e distito e quizais
fose mellor facer un modelo que soamente cubra o galego normativo
(Estaria moi complicado distinguir o galego reintegracionista do portugues).

Outro dos resultados dos meus experimentos son estes feeds RSS para
alguns xornais galegos que resultan moi utiles todolos dias pola manha:

    * Canal Ciencia: http://ramonantonio.net/xml/canalciencia.xml
    * Codigo Cero: http://ramonantonio.net/xml/codigocero.xml
    * Galicia Hoxe: http://ramonantonio.net/xml/galiciahoxe.xml
    * Vieiros: http://ramonantonio.net/xml/vieiros.xml



[1] http://www.let.rug.nl/~vannoord/TextCat/
[2] http://citeseer.ist.psu.edu/68861.html
[3] http://lucene.apache.org/nutch/about.html
[4] http://ramonantonio.net/contents/modelo-ngram-galego



-- 
Ramon Antonio Parada
Skype: ramon.parada
http://ramonantonio.net/ 

_______________________________________________
Trasno mailing list
tra...@ceu.fi.udc.es
http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno

Responderlle a