Re: A inacesibilidade das paxinas en galego

Víctor Andrade Thu, 09 Feb 2006 23:54:24 +0100 (CET)

Si há buscador de sitios em galego:

www.google.pt --> "páginas escritas em Português"


E nom estou a falar de galego reintegrado, os sitios em galego RAG tamém
saem, provade :).

>
> Unha das cousas que falta en Galicia son os buscadores de paxinas en
> galego. Penso que, aparte de todo interes
> nacionalista/patriotico/galeguista que poida ter este feito, esta a
> provocar unha inaccesibilidade destas paxinas, que perden lectores con
> respecto a outras en castelan. A consecuencia final de todo isto e que
> ninguen publica en galego na internet xa que de seguro vana  ter menos
> ligazons. Se nos fixamos no buscador Google.es, este non conta cunha
> funcion para buscar paxinas cuio contido este en lingua galega, o
> contrario que ocorre co castelan, euskera, e catalan.
>
> Alguen sabe porque? Eu tenho unha sospeita. Existen varias formas de
> detectar en que lingua esta un texto. Moi eficaces sobre todo as basadas
> en redes neuronais. Pero cando o que estas clasificando son millons de
> paxinas, unha rede neuronal resulta demasiado custosa en canto a termos
> de rendemento, asi que o que fan alguns programas aranha como Nutch[1],
> programa aranha de codigo aberto que forma parte do proxeto Lucene de
> Apache, e facer unha busqueda basada en modelos N-Gram [2] que se
> obtenhen das frecuencias de aparicion de grupos de n caracteres seguidos
> (xeralmente 1, 2 e 3 caracteres, por ex. "vac") [4]. Para saber en que
> lingua esta un texto se compara o modelo resultante do texto en cuestion
> cos de todalas linguas (xeralmente se comparan os 300 primeiros n-gram)
> e se calcula a distancia entre a posicion dun elemento nunha e outra
> lista ou ben a diferencia entre a frecuencia. O texto categorizarase
> como pertencente a lingua cuias sumas de distancias sexan menores. Tamen
> pode chegarse a conclusion de que pode pertencer a duas linguas con
> probabilidades semellantes. Como e normal o caracter mais comun sempre e
> o espazo (_), pero ainda asi resulta moi util xa que linguas como o
> aleman tenhen palabras moi longas o cal fai diminuir sustancialmente a
> frecuencia de aparicion. O feito de que so se comproben as trescentas
> primeiras cadeas debese a que por experiencia sabese que a partires de
> enton o modelo volvese moi dependente do tema que trate o texto, sendo
> tamen moi util este sistema para clasificar artigos por temas.
>
> A que ven todo isto? Resulta que existen modelos n-gram publicamente
> disponibles para 52 linguas[3], entre as que se atopan o euskera e o
> catalan pero non o galego. Seguramente estas son as que emprega Google
> na sua deteccion da linguaxe e por iso a maioria dos textos en galego
> figuran como textos en castelan. Para os que pensen que Google detecta
> moi mal o idioma dicirvos que estos modelos se estiman que acertan nun
> 89% das veces.
>
> Espero que isto sirva de resumo para os non introducidos, non sei se
> isto dase en algunha asignatura da facultade. Como curiosidade dicir que
> este sistema empregouse tamen en criptografia. Un dos sistemas de
> encriptacion mais sinxelos (non moi eficaz por certo) e sustituir cada
> letra do abecedario por outra o azar. O texto resultante e ilexible a
> simple vista, pero obtendo un modelo podese saber cales foron as
> sustitucions feitas basandose na sua frecuencia.
>
> Actualmente estou pensando en facer un modelo para o galego. A gran
> cuestion e que corpus linguistico empregar para a crear o modelo. Outra
> cuestion e a diferencia existente entre o galego reintegracionista e o
> normativo, ata o punto que o abecedario que empregan e distito e quizais
> fose mellor facer un modelo que soamente cubra o galego normativo
> (Estaria moi complicado distinguir o galego reintegracionista do
> portugues).
>
> Outro dos resultados dos meus experimentos son estes feeds RSS para
> alguns xornais galegos que resultan moi utiles todolos dias pola manha:
>
>     * Canal Ciencia: http://ramonantonio.net/xml/canalciencia.xml
>     * Codigo Cero: http://ramonantonio.net/xml/codigocero.xml
>     * Galicia Hoxe: http://ramonantonio.net/xml/galiciahoxe.xml
>     * Vieiros: http://ramonantonio.net/xml/vieiros.xml
>
>
>
> [1] http://www.let.rug.nl/~vannoord/TextCat/
> [2] http://citeseer.ist.psu.edu/68861.html
> [3] http://lucene.apache.org/nutch/about.html
> [4] http://ramonantonio.net/contents/modelo-ngram-galego
>
>
>
> --
> Ramon Antonio Parada
> Skype: ramon.parada
> http://ramonantonio.net/
>
> _______________________________________________
> Trasno mailing list
> tra...@ceu.fi.udc.es
> http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno
>


_______________________________________________
Trasno mailing list
tra...@ceu.fi.udc.es
http://ceu.fi.udc.es/cgi-bin/mailman/listinfo/trasno

Re: A inacesibilidade das paxinas en galego

Responderlle a