Xabier, os meus parabéns!

Estaba a traballar no mesmo ca ti, pero ti vas moito máis avanzado. 
Dálle!

Xosé

O Xov, 18 Feb, 2021 at 17:58, Xabier Villar <[email protected]> 
escribiu:
> 
> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P
> 
> Estiven enredando un chisco cos ficheiros estes, coa intención de 
> limpar un pouquiño, separar as frases e facer unha selección 
> inicial daquelas que cumpran algúns dos parámetros (por exemplo, 14 
> palabras ou menos). Non controlo case nada das ferramentas que 
> empreguei, pero explícovos o que fixen por se algún de vos pode 
> refinar o proceso ou mesmo sacar unha ferramenta que nos permita 
> preprocesar mais textos que poidan ir aparecendo.
> 
> En primeiro lugar asegureime de que os ficheiros estiveran formato 
> UNIX e UTF8, como fixo Antón coa orde dos2unix. Como son poucos 
> tamén se pode facer cun editor (Kate, que é o que eu emprego, faino 
> bastante sinxelo).
> 
> Logo, e tendo en conta que estes ficheiros teñen certas 
> construcións "estranas", paseille varios filtros con sed. É moi 
> chafulleiro, e funo sacando por proba e erro, e aínda así 
> escapáronseme cousas, pero algo axudou:
> A orde que empreguei sería:
> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r 
> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ 
> *\.//' > IGTRAP-iso-sed.TXT
> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o 
> terceiro eliminaría as etiquetas con números |##|, e o último 
> amañaba algunhas liñas que comezan por espazo e .
> Aínda así escápanse cousas que seguramente se poderían amañar, e 
> seguramente estrague algunha frase polo medio, pero penso que paga a 
> pena.
> 
> Posteriormente, con python e a libraría nltk separei as frases unha 
> por cada liña, e finalmente tamñen con python, creei un ficheiro 
> final coas frases de 14 palabras ou menos.
> 
> A partires de aquí podemos afinar aínda moito mais (eliminar as que 
> teñan números ou certas construcións e caracteres que non nos 
> interesen, hai que eliminar o ÷ que aparece en moitos sítios, etc...
> 
> Co resultado penso que xa se pode traballar á man eliminando aquilo 
> que non cumpra uns requisitos mínimos.
> 
> Con todo, penso que o importante aquí está en que probablemente 
> tirando de ferramentas como o NLTK <https://www.nltk.org/> ou 
> Freeling  <http://nlp.lsi.upc.edu/freeling/node/1> se poida adiantar 
> moito traballo para tratar con orixes de texto masivas. Estou 
> pensando concretamente en quen teña algún blog, ou que chíe moito 
> en twitter, que podería baixar eses datos, filtralos, e traballar 
> sobre esa base filtrada. Nas mans dalgún dos que sabedes penso que 
> pode dar moito de sí (eu soupen de NLTK e Freeling onte pola noite, 
> e de python copio mais de stackexchange e similares que do que sei XD)
> 
> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas 
> (por chamarlle algo) que fixen. Sobre o ficheiro filtrado 
> (IGTRAP-iso-sed.TXT no pipe anterior) executaría:
> 
> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT
> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT
> 
> Saúdos e graciñas polo traballo que estades a facer!
> 
> PD: Insisto, non teño nin idea, así que non me deades moito na 
> cabeza pola chapuza :DDDD
> ---------- Forwarded message ---------
>  De: *Antón Méixome* <[email protected] 
> <mailto:[email protected]>>
>  Date: mié, 17 feb 2021 a las 13:04
>  Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la 
> carpeta "Méixome" contigo.
>  To: Lista de correo de Proxecto Trasno <[email protected]>
> 
> 
> Con esta orde
> 
> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT
> 
> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer 
> mellor... agradécese
> 
> (non sei como se verá en Windows o orixinal, claro)
> 
> 
> 
> 
> 
> 
> 
> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome 
> (<[email protected] <mailto:[email protected]>>) escribiu:
>> Santamarina advírteme do seguinte
>> 
>>  "Van algo manipulados porque os usei para facer unha base de datos 
>> lexicográfica e levan por exemplo demarcadores para nomes propios .
>> Tamén separei os pronomes enclíticos do verbo, porque so dúas 
>> palabras.
>> 
>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre 
>> {}.
>> 
>> 
>> 
>> Para textos dialogados se cadra che viña algo mellor algunha obra 
>> de teatro
>> 
>> 
>> 
>> Pide os que queiras, non teño problema e facilitarchos."
>> 
>> 
>> De feito, no meu equipo dime que están en "binario"
>> 
>> Parece que non consigo arranxalos
>> 
>> 
>> 
>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome 
>> (<[email protected] <mailto:[email protected]>>) escribiu:
>>> 
>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con 
>>> esta accédese aos textos que está procesando manualmente Lucía.
>>> A ver se puidésemos automatizar un pouco a extracción de frases.
>>> 
>>> 
>>> 
>>> ---------- Forwarded message ---------
>>>  De: *SANTAMARINA FERNANDEZ ANTONIO* <[email protected] 
>>> <mailto:[email protected]>>
>>>  Date: mér., 17 de feb. de 2021 ás 10:05
>>>  Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta 
>>> "Méixome" contigo.
>>>  To: [email protected] <mailto:[email protected]> 
>>> <[email protected] <mailto:[email protected]>>
>>> 
>>> 
>>> __
>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo
>>> 
>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió 
>>> contigo.
>>> 
>>> Méixome 
>>> <https://nubeusc-my.sharepoint.com/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>  
>>> Este vínculo funcionará para cualquier persona. Abrir 
>>> <https://nubeusc-my.sharepoint.com/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>  
>>> Declaración de privacidad 
>>> <https://westeuroper-notifyp.svc.ms/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c>
>> 
>> - Lista de correo de Proxecto Trasno - Enviar correo a - 
>> [email protected]
>>  - Correo do administrador - [email protected] - de - 
>> Proxecto Trasno
>>  - Cancelar a subscrición  no URL: 
>> <http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088>
>> 
> 
> - Lista de correo de Proxecto Trasno - Enviar correo a - 
> [email protected]
>  - Correo do administrador - [email protected] - de - Proxecto 
> Trasno
>  - Cancelar a subscrición  no URL: 
> <http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664>
> 
> 
> 
>  --
> 
>  Xabier Villar
> 
> - Lista de correo de Proxecto Trasno - Enviar correo a - 
> [email protected]
>  - Correo do administrador - [email protected] - de - Proxecto 
> Trasno
>  - Cancelar a subscrición  no URL: 
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=c4d822616120c321fecba14b94891c270a19f42c&sa=1522867080
> 


- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7340&h=ae6e167ab9d0783bc80eed1ec139e4316b353c30&sa=441107818

Responderlle a