Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome" contigo.

Antón Méixome Mon, 22 Feb 2021 10:50:00 -0800

Temos contestación oficial do TILG, confirmando a cesión e apoio ao proxecto
"
Por suposto, podedes contar cos textos do TILG . De feito, acaba de
dicirnos Antón que xa vos pasou algúns anacos. Se precisas un documento
formal co permiso para o uso do textos, axiña cho enviamos.
Quedamos á vosa disposición para o que precisedes, posto que apoiamos
firmemente a vosa iniciativa.
"


O luns, 22 de feb. de 2021 ás 17:22, Lu cía (<[email protected]>)
escribiu:

> @Antón. Sen problema. Podo crear a lista dos textos máis axeitados e
> pasarcha (esta fin de semana), pensarei tamén nun sistema para que poidamos
> facer este tema de forma ordenada.
> Un saúdo,
> Lucía
>
>
> Le dim. 21 févr. 2021 à 20:50, Antón Méixome <[email protected]> a
> écrit :
>
>> @Lucía, podes coordinar ti a extracción de frases do TILG?
>>
>> Depurando o que fixo Xabier.
>> Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina.
>> Se che parece, súbeos ti xa directamente ao sistema de sentence-collect
>> de Mozill
>>
>> Vai informando, porfa.
>> Antón
>>
>>
>>
>>
>> O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<[email protected]>)
>> escribiu:
>>
>>> Ola,
>>>
>>> Xabier, vaia traballo! Parabéns!
>>>
>>>
>>> Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos
>>> do TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa
>>> vin algúns do TILG que conteñen tamén texto en castelán ou a temática non é
>>> a máis acorde co que se busca no cv. E así perdermos menos tempo no
>>> postprocesado das frases (imaxino manual polo menos para revisalas no
>>> sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter
>>> todo e ver o que sae, non sei como o vedes.
>>>
>>> *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que
>>> teñan números ou certas construcións e caracteres que non nos interesen,
>>> hai que eliminar o ÷ que aparece en moitos sítios, etc...*
>>>
>>> Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un
>>> corrector para amañar os problemas dos acentos. Por exemplo, casos como
>>> "dixo÷lle.".
>>>
>>>
>>>
>>> Eu andaba buscando frases case unha por unha, (buscando verbos en
>>> imperativo, 2a persoa, etc. co buscador do TILG,  e agora que xa tiña os
>>> textos completos andaba buscando signos gráficos de diálogos), pero así
>>> manualmente como facía eu non acabaríamos nunca :).
>>>
>>>
>>>
>>> Unha aperta,
>>>
>>>
>>>
>>> Lucía
>>>
>>>
>>> Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <[email protected]> a
>>> écrit :
>>>
>>>> Xenial, Xabier un traballo de trasnego enxebre
>>>>
>>>> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está
>>>> depurando esas fontes de textos.
>>>> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg
>>>>
>>>>
>>>> Aproveito para comentar
>>>> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga
>>>> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar
>>>> ou mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso)
>>>> sería unha gran solución porque recolle transcricións de series da TVG,
>>>> xornais, etc.
>>>>
>>>>
>>>>
>>>>
>>>>
>>>> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (<
>>>> [email protected]>) escribiu:
>>>>
>>>>>
>>>>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P
>>>>>
>>>>> Estiven enredando un chisco cos ficheiros estes, coa intención de
>>>>> limpar un pouquiño, separar as frases e facer unha selección inicial
>>>>> daquelas que cumpran algúns dos parámetros (por exemplo, 14 palabras ou
>>>>> menos). Non controlo case nada das ferramentas que empreguei, pero
>>>>> explícovos o que fixen por se algún de vos pode refinar o proceso ou mesmo
>>>>> sacar unha ferramenta que nos permita preprocesar mais textos que poidan 
>>>>> ir
>>>>> aparecendo.
>>>>>
>>>>> En primeiro lugar asegureime de que os ficheiros estiveran formato
>>>>> UNIX e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se
>>>>> pode facer cun editor (Kate, que é o que eu emprego, faino bastante
>>>>> sinxelo).
>>>>>
>>>>> Logo, e tendo en conta que estes ficheiros teñen certas construcións
>>>>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo
>>>>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo
>>>>> axudou:
>>>>> A orde que empreguei sería:
>>>>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r
>>>>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' >
>>>>> IGTRAP-iso-sed.TXT
>>>>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o
>>>>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba
>>>>> algunhas liñas que comezan por espazo e .
>>>>> Aínda así escápanse cousas que seguramente se poderían amañar, e
>>>>> seguramente estrague algunha frase polo medio, pero penso que paga a pena.
>>>>>
>>>>> Posteriormente, con python e a libraría nltk separei as frases unha
>>>>> por cada liña, e finalmente tamñen con python, creei un ficheiro final 
>>>>> coas
>>>>> frases de 14 palabras ou menos.
>>>>>
>>>>> A partires de aquí podemos afinar aínda moito mais (eliminar as que
>>>>> teñan números ou certas construcións e caracteres que non nos interesen,
>>>>> hai que eliminar o ÷ que aparece en moitos sítios, etc...
>>>>>
>>>>> Co resultado penso que xa se pode traballar á man eliminando aquilo
>>>>> que non cumpra uns requisitos mínimos.
>>>>>
>>>>> Con todo, penso que o importante aquí está en que probablemente
>>>>> tirando de ferramentas como o NLTK https://www.nltk.org/ ou Freeling
>>>>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito
>>>>> traballo para tratar con orixes de texto masivas. Estou pensando
>>>>> concretamente en quen teña algún blog, ou que chíe moito en twitter, que
>>>>> podería baixar eses datos, filtralos, e traballar sobre esa base filtrada.
>>>>> Nas mans dalgún dos que sabedes penso que pode dar moito de sí (eu soupen
>>>>> de NLTK e Freeling onte pola noite, e de python copio mais de 
>>>>> stackexchange
>>>>> e similares que do que sei XD)
>>>>>
>>>>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas
>>>>> (por chamarlle algo) que fixen. Sobre o ficheiro filtrado
>>>>> (IGTRAP-iso-sed.TXT no pipe anterior) executaría:
>>>>>
>>>>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT
>>>>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT
>>>>>
>>>>> Saúdos e graciñas polo traballo que estades a facer!
>>>>>
>>>>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza
>>>>> pola chapuza :DDDD
>>>>> ---------- Forwarded message ---------
>>>>> De: Antón Méixome <[email protected]>
>>>>> Date: mié, 17 feb 2021 a las 13:04
>>>>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta
>>>>> "Méixome" contigo.
>>>>> To: Lista de correo de Proxecto Trasno <[email protected]>
>>>>>
>>>>>
>>>>> Con esta orde
>>>>>
>>>>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT
>>>>>
>>>>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer
>>>>> mellor... agradécese
>>>>>
>>>>> (non sei como se verá en Windows o orixinal, claro)
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>>
>>>>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (<
>>>>> [email protected]>) escribiu:
>>>>>
>>>>>> Santamarina advírteme do seguinte
>>>>>>
>>>>>> "Van algo manipulados porque os usei para facer unha base de datos
>>>>>> lexicográfica e levan por exemplo demarcadores para nomes propios .
>>>>>>
>>>>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas
>>>>>> palabras.
>>>>>>
>>>>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}.
>>>>>>
>>>>>>
>>>>>>
>>>>>> Para textos dialogados se cadra che viña algo mellor algunha obra de
>>>>>> teatro
>>>>>>
>>>>>>
>>>>>>
>>>>>> Pide os que queiras, non teño problema e facilitarchos."
>>>>>>
>>>>>>
>>>>>> De feito, no meu equipo dime que están en "binario"
>>>>>>
>>>>>> Parece que non consigo arranxalos
>>>>>>
>>>>>>
>>>>>>
>>>>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (<
>>>>>> [email protected]>) escribiu:
>>>>>>
>>>>>>>
>>>>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta
>>>>>>> accédese aos textos que está procesando manualmente Lucía.
>>>>>>> A ver se puidésemos automatizar un pouco a extracción de frases.
>>>>>>>
>>>>>>>
>>>>>>>
>>>>>>> ---------- Forwarded message ---------
>>>>>>> De: SANTAMARINA FERNANDEZ ANTONIO <[email protected]>
>>>>>>> Date: mér., 17 de feb. de 2021 ás 10:05
>>>>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta
>>>>>>> "Méixome" contigo.
>>>>>>> To: [email protected] <[email protected]>
>>>>>>>
>>>>>>>
>>>>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo
>>>>>>>
>>>>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió
>>>>>>> contigo.
>>>>>>> [image: icon] Méixome
>>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>>>>
>>>>>>> [image: permission globe icon] Este vínculo funcionará para
>>>>>>> cualquier persona.
>>>>>>> Abrir
>>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9>
>>>>>>> [image: Microsoft logo] [image: Custom logo]
>>>>>>> Declaración de privacidad
>>>>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c>
>>>>>>>
>>>>>>
>>>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>>>> [email protected]
>>>>>> - Correo do administrador - [email protected] - de - Proxecto
>>>>>> Trasno
>>>>>> - Cancelar a subscrición  no URL:
>>>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088
>>>>>>
>>>>>
>>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>>> [email protected]
>>>>> - Correo do administrador - [email protected] - de - Proxecto
>>>>> Trasno
>>>>> - Cancelar a subscrición  no URL:
>>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664
>>>>>
>>>>>
>>>>> --
>>>>>
>>>>> Xabier Villar
>>>>>
>>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>>> [email protected]
>>>>> - Correo do administrador - [email protected] - de - Proxecto
>>>>> Trasno
>>>>> - Cancelar a subscrición  no URL:
>>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367
>>>>>
>>>>
>>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>>> [email protected]
>>>> - Correo do administrador - [email protected] - de - Proxecto
>>>> Trasno
>>>> - Cancelar a subscrición  no URL:
>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188
>>>>
>>>
>>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>>> [email protected]
>>> - Correo do administrador - [email protected] - de - Proxecto
>>> Trasno
>>> - Cancelar a subscrición  no URL:
>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267
>>>
>>
>> - Lista de correo de Proxecto Trasno - Enviar correo a -
>> [email protected]
>> - Correo do administrador - [email protected] - de - Proxecto
>> Trasno
>> - Cancelar a subscrición  no URL:
>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=5d0802b5542d330257ffdb0b6c1fc94e1b920172&sa=282170197
>>
>
> - Lista de correo de Proxecto Trasno - Enviar correo a -
> [email protected]
> - Correo do administrador - [email protected] - de - Proxecto
> Trasno
> - Cancelar a subscrición  no URL:
> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7378&h=19b6954cfab29e0bcef274d3169414fd0a811695&sa=1416388557
>

- Lista de correo de Proxecto Trasno - Enviar correo a - [email protected]
- Administrador - [email protected] - de - Proxecto Trasno
- Cancelar a subscrición no URL : 
http://trasno.gal/web?confirm_unsubscribe=indeed&m=7379&h=259643252051112f73e5803e41301f87feb22e9d&sa=384124664

Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta "Méixome" contigo.

Responderlle a