Grzas Xabier. Traballazo. A ver se somos quen de afinar
O 16:33, luns, 29/03/2021, Xabier Villar <[email protected]> escribiu:
> Boas
> Tardei mais do que esperaba en darlle forma ao procedemento para
> preprocesar os textos do TILG, e estou nun punto no que entre a falta de
> tempo e inspiracion non tiña moi claro por onde seguir.
> Adxunto o texto orixinal e o resultado preliminar do primeiro deles, e
> explícovos un chisco os pasos que levei a cabo (tanto automatizados como
> manuais). Por último inclúo as dúbidas que me xorden con respecto a certas
> decisións que se poden tomar para eliminar frases ou palabras
> problemáticas, ou se convén deixalas e fiar o seu tratamento á revisión
> manual.
>
> Os textos teñen unha serie de marcadores que dan certas dificultades á
> hora de tratalos, porque me xeran certos conflitos á hora de tentar
> detectalos e eliminalos con expresións regulares, pero mais ou menos funme
> amañando para solventar os máis deles. Tamén poden incluír estranxeirismos,
> nomes propios, etc... pero por orde isto é o que vou facendo:
>
> *Exemplo*
> => acción
> * resultado agardado*
> comentarios
>
> *1ª fase : Múltiples filtros nun script sed*
> *|9| LIMIAR*
> => eliminar o |9|
> *LIMIAR*
>
> *1. Chama÷se ágape o xantar*
> => eliminar o 1.
> * Chama÷se ágape o xantar*
>
> *son nomes galegos do {Nasturtium officinale}, planta da*
> => eliminar as {}
> * son nomes galegos do Nasturtium officinale, planta da*
>
> *chamou÷me .*Juan *Ramón *Díaz., o mítico director de*
> => elimino o .* inicial e o . final
> * chamou÷me Juan *Ramón *Díaz, o mítico director de*
> Cumprirá eliminar posteriormente os *
>
> *aceptación na .Exposición Universal. de París*
> => Substitúo os puntos iniciais e finais por «».
> * aceptación na «Exposición Universal» de París*
> Non sempre cadra ben a substitución, pois emprégase ademais para
> intercalados, pero non atopo outra opción.
> Pódense revisar a posteriori con:
> grep -e " \«[[:alpha:]].*\» " GLDABE-1.TXT
>
> *no <ambulatorio de *Marqués *del *Duero>,*
> => Elimino o < inicial e o > final
> * no ambulatorio de *Marqués *del *Duero,*
> Cumprirá eliminar posteriormente os *
>
> *eran de <*Salvaterra *de *Miño>, formados nos*
> => Elimino o <* inicial e o > final
> * eran de Salvaterra *de Miño, formados nos*
> Cumprirá eliminar posteriormente os *
>
> *eran de Salvaterra *de Miño, formados nos*
> => Tras os filtros previos, elimino os *
> * eran de Salvaterra de Miño, formados nos*
>
> *2ª fase: Problemas con palabras que empezan por vogal acentuada, ás veces
> representadas con .*
> *. hora de agradecer a*
> => Buscar casos con .[letra] para *editar manualmente*.
> * Á hora de agradecer a*
> Creo un listado con grep e sed indicando números de liña onde se
> da o caso e palabra afectada. Xeralmente son Á, Ó, etc...
> Noutros casos son marcadores que tratamos despois
>
> *3ª fase: Rematamos de limpar restos dos marcadores que contiñan puntos,
> para evitar erros no separador de frases.*
> *Colección Austral de .Espasa-Calpe..*
> => Eliminamos o . inicial e final
> * Colección Austral de Espasa-Calpe.*
> Son xeralmente nomes propios dunha soa palabra.
> Cando son varias poden ser intercalados ou títulos, *dará algúns
> erros*
>
> *4ª fase: Separación en frases*
> => detección e separación de frases con nltk
>
> *5ª fase:*
> => Aplico as reglas definidas en filtro-cv-gl.sh
> <https://github.com/XabierV/cv-gl-tools/blob/main/filtro-cv-gl.sh>
>
> *6ª fase: tratamento dos ÷*
> *Chama÷se ágape o xantar*
> => Busca de frases con ÷ (chama÷se), e edición manual dos que requiran
> engadir til
> * Chámase ágape o xantar*
> Creo un listado con grep e sed indicando números de liña onde se da o
> caso e palabra afectada. Permite nalgúns casos substitucións en bloque de
> casos claros, noutras hai que editar un a un
>
> *7ª fase: Eliminación de frases que rematan en palabras que indican
> claramente erro (artigos, por exemplo=*
> => con grep -viw -f remates GLDABE.TXT, unha vez definida remates
>
> *8ª fase: Separar frases que comecen por palabras (me, te, che...) ou
> símbolos non adecuados*
> => con grep -wif comezos GLDABE.TXT, unha vez definido comezos
>
> *CUESTIÓNS PENDENTES DETECTADAS:*
>
> - Xeralmente emprega como marcador de estranxeirismos o símbolo #.
> Eliminamos todas esas frases?
> - Abundan os nomes propios e topónimos; algúns non deberan ser
> problemáticos, outros si, por ser estranxeiros, por exemplo. Elimínanse ou
> mantéñense para tomar a decisión na edición manual?
> - Moitas palabras da forma "*Xantá-lo*". Non sei se son todas
> correspondentes ao emprego da segunda forma do artigo, así que agradezo a
> vosa opinión. Se fose preciso xestionalo, sería relativamente sinxelo illar
> ditas frases para facilitar a súa edición.
> - Pódese facer unha análise co hunspell, crear unha lista negra e
> eliminar as frases que conteñan calquera palabra desa lista. Problema:
> moitos falsos positivos na lista negra, cumpriría unha revisión exhaustiva
> desta antes de aplicala
> - As listaxes de palabras "prohibidas" ao comezo ou remate de frases
> funas improvisando eu, que non teño tampouco demasiada idea do tema. En
> xeral non parecen ter moito impacto nestes textos, que semellan bastante
> ben redactados (por exemplo, non atopei frases comezando por pronomes
> átonos), pero se alguén pode referir ou elaborar unha listaxe completa pode
> ser útil para revisar moitas outras fontes.
>
> Calquera outra cousa que vexades que sexa susceptible de automatizar,
> comentádema, a ver se son quen de implementalo. Se afinamos ben este
> tratamento, o resto de textos requeriranme moito menos tempo e sairán moito
> mais limpos :)
>
> saúdos!
> --
>
> Xabier Villar
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7516&h=6cbbba250bab9ba139bd4605b98dc4a3c32a76fe&sa=1851701853
>
- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL :
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7517&h=340ab933a7451b0416a2f266e710f3dce55740da&sa=1841310996