Grzas Xabier. Traballazo. A ver se somos quen de afinar

O 16:33, luns, 29/03/2021, Xabier Villar <[email protected]> escribiu:

> Boas
> Tardei mais do que esperaba en darlle forma ao procedemento para
> preprocesar os textos do TILG, e estou nun punto no que entre a falta de
> tempo e inspiracion non tiña moi claro por onde seguir.
> Adxunto o texto orixinal e o resultado preliminar do primeiro deles, e
> explícovos un chisco os pasos que levei a cabo (tanto automatizados como
> manuais). Por último inclúo as dúbidas que me xorden con respecto a certas
> decisións que se poden tomar para eliminar frases ou palabras
> problemáticas, ou se convén deixalas e fiar o seu tratamento á revisión
> manual.
>
> Os textos teñen unha serie de marcadores que dan certas dificultades á
> hora de tratalos, porque me xeran certos conflitos á hora de tentar
> detectalos e eliminalos con expresións regulares, pero mais ou menos funme
> amañando para solventar os máis deles. Tamén poden incluír estranxeirismos,
> nomes propios, etc... pero por orde isto é o que vou facendo:
>
> *Exemplo*
>     => acción
> *    resultado agardado*
>     comentarios
>
> *1ª fase : Múltiples filtros nun script sed*
> *|9| LIMIAR*
>     => eliminar o |9|
>     *LIMIAR*
>
> *1. Chama÷se ágape o xantar*
>     => eliminar o 1.
> *    Chama÷se ágape o xantar*
>
> *son nomes galegos do {Nasturtium officinale}, planta da*
>     => eliminar as {}
> *    son nomes galegos do Nasturtium officinale, planta da*
>
> *chamou÷me .*Juan *Ramón *Díaz., o mítico director de*
>     => elimino o .* inicial e o . final
> *    chamou÷me Juan *Ramón *Díaz, o mítico director de*
>         Cumprirá eliminar posteriormente os *
>
> *aceptación na .Exposición Universal. de París*
>     => Substitúo os puntos iniciais e finais por «».
> *    aceptación na «Exposición Universal»  de París*
>         Non sempre cadra ben a substitución, pois emprégase ademais para
>         intercalados, pero non atopo outra opción.
>         Pódense revisar a posteriori con:
>             grep -e " \«[[:alpha:]].*\» " GLDABE-1.TXT
>
> *no <ambulatorio de *Marqués *del *Duero>,*
>     => Elimino o < inicial e o > final
> *    no ambulatorio de *Marqués *del *Duero,*
>         Cumprirá eliminar posteriormente os *
>
> *eran de <*Salvaterra *de *Miño>, formados nos*
>     => Elimino o <* inicial e o > final
> *    eran de Salvaterra *de Miño, formados nos*
>         Cumprirá eliminar posteriormente os *
>
> *eran de Salvaterra *de Miño, formados nos*
>     => Tras os filtros previos, elimino os *
> *    eran de Salvaterra de Miño, formados nos*
>
> *2ª fase: Problemas con palabras que empezan por vogal acentuada, ás veces
> representadas con .*
> *. hora de agradecer a*
>     => Buscar casos con .[letra] para *editar manualmente*.
> *    Á hora de agradecer a*
>         Creo un listado con grep e sed indicando números de liña onde se
> da o caso e palabra afectada. Xeralmente son Á, Ó, etc...
>         Noutros casos son marcadores que tratamos despois
>
> *3ª fase: Rematamos de limpar restos dos marcadores que contiñan puntos,
> para evitar erros no separador de frases.*
> *Colección Austral de .Espasa-Calpe..*
>     => Eliminamos o . inicial e final
> *    Colección Austral de Espasa-Calpe.*
>         Son xeralmente nomes propios dunha soa palabra.
>         Cando son varias poden ser intercalados ou títulos, *dará algúns
> erros*
>
> *4ª fase: Separación en frases*
>     => detección e separación de frases con nltk
>
> *5ª fase:*
>     => Aplico as reglas definidas en filtro-cv-gl.sh
> <https://github.com/XabierV/cv-gl-tools/blob/main/filtro-cv-gl.sh>
>
> *6ª fase: tratamento dos ÷*
> *Chama÷se ágape o xantar*
>     => Busca de frases con ÷ (chama÷se), e edición manual dos que requiran
> engadir til
> *    Chámase ágape o xantar*
>     Creo un listado con grep e sed indicando números de liña onde se da o
> caso e palabra afectada. Permite nalgúns casos substitucións en bloque de
> casos claros, noutras hai que editar un a un
>
> *7ª fase: Eliminación de frases que rematan en palabras que indican
> claramente erro (artigos, por exemplo=*
>     => con grep -viw -f remates GLDABE.TXT, unha vez definida remates
>
> *8ª fase: Separar frases que comecen por palabras (me, te, che...) ou
> símbolos non adecuados*
>     => con grep -wif comezos GLDABE.TXT, unha vez definido comezos
>
> *CUESTIÓNS PENDENTES DETECTADAS:*
>
>    - Xeralmente emprega como marcador de estranxeirismos o símbolo #.
>    Eliminamos todas esas frases?
>    - Abundan os nomes propios e topónimos; algúns non deberan ser
>    problemáticos, outros si, por ser estranxeiros, por exemplo. Elimínanse ou
>    mantéñense para tomar a decisión na edición manual?
>    - Moitas palabras da forma "*Xantá-lo*". Non sei se son todas
>    correspondentes ao emprego da segunda forma do artigo, así que agradezo a
>    vosa opinión. Se fose preciso xestionalo, sería relativamente sinxelo illar
>    ditas frases para facilitar a súa edición.
>    - Pódese facer unha análise co hunspell, crear unha lista negra e
>    eliminar as frases que conteñan calquera palabra desa lista. Problema:
>    moitos falsos positivos na lista negra, cumpriría unha revisión exhaustiva
>    desta antes de aplicala
>    - As listaxes de palabras "prohibidas" ao comezo ou remate de frases
>    funas improvisando eu, que non teño tampouco demasiada idea do tema. En
>    xeral non parecen ter moito impacto nestes textos, que semellan bastante
>    ben redactados (por exemplo, non atopei frases comezando por pronomes
>    átonos), pero se alguén pode referir ou elaborar unha listaxe completa pode
>    ser útil para revisar moitas outras fontes.
>
> Calquera outra cousa que vexades que sexa susceptible de automatizar,
> comentádema, a ver se son quen de implementalo. Se afinamos ben este
> tratamento, o resto de textos requeriranme moito menos tempo e sairán moito
> mais limpos :)
>
> saúdos!
> --
>
> Xabier Villar
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7516&h=6cbbba250bab9ba139bd4605b98dc4a3c32a76fe&sa=1851701853
>

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7517&h=340ab933a7451b0416a2f266e710f3dce55740da&sa=1841310996

Responderlle a