Temos contestación oficial do TILG, confirmando a cesión e apoio ao proxecto " Por suposto, podedes contar cos textos do TILG . De feito, acaba de dicirnos Antón que xa vos pasou algúns anacos. Se precisas un documento formal co permiso para o uso do textos, axiña cho enviamos. Quedamos á vosa disposición para o que precisedes, posto que apoiamos firmemente a vosa iniciativa. "
O luns, 22 de feb. de 2021 ás 17:22, Lu cía (<[email protected]>) escribiu: > @Antón. Sen problema. Podo crear a lista dos textos máis axeitados e > pasarcha (esta fin de semana), pensarei tamén nun sistema para que poidamos > facer este tema de forma ordenada. > Un saúdo, > Lucía > > > Le dim. 21 févr. 2021 à 20:50, Antón Méixome <[email protected]> a > écrit : > >> @Lucía, podes coordinar ti a extracción de frases do TILG? >> >> Depurando o que fixo Xabier. >> Pide os textos do TILG que che parezan. Eu transmítollo a Santamarina. >> Se che parece, súbeos ti xa directamente ao sistema de sentence-collect >> de Mozill >> >> Vai informando, porfa. >> Antón >> >> >> >> >> O xov., 18 de feb. de 2021 ás 21:27, Lu cía (<[email protected]>) >> escribiu: >> >>> Ola, >>> >>> Xabier, vaia traballo! Parabéns! >>> >>> >>> Se utilizamos o teu filtro, poderíamos centrarnos en escoller os textos >>> do TILG (ou CORGA se nos dan permiso) que sexan máis axeitados porque xa >>> vin algúns do TILG que conteñen tamén texto en castelán ou a temática non é >>> a máis acorde co que se busca no cv. E así perdermos menos tempo no >>> postprocesado das frases (imaxino manual polo menos para revisalas no >>> sentence collector) que pasen este primeiro filtro. Ou igual é mellor meter >>> todo e ver o que sae, non sei como o vedes. >>> >>> *>>>A partires de aquí podemos afinar aínda moito mais (eliminar as que >>> teñan números ou certas construcións e caracteres que non nos interesen, >>> hai que eliminar o ÷ que aparece en moitos sítios, etc...* >>> >>> Si, ao quitar o ÷ tamén habería que ver se lle podemos pasar un >>> corrector para amañar os problemas dos acentos. Por exemplo, casos como >>> "dixo÷lle.". >>> >>> >>> >>> Eu andaba buscando frases case unha por unha, (buscando verbos en >>> imperativo, 2a persoa, etc. co buscador do TILG, e agora que xa tiña os >>> textos completos andaba buscando signos gráficos de diálogos), pero así >>> manualmente como facía eu non acabaríamos nunca :). >>> >>> >>> >>> Unha aperta, >>> >>> >>> >>> Lucía >>> >>> >>> Le jeu. 18 févr. 2021 à 19:42, Antón Méixome <[email protected]> a >>> écrit : >>> >>>> Xenial, Xabier un traballo de trasnego enxebre >>>> >>>> Sobe os resultados, gustaríame saber o que opina Lucía que é quen está >>>> depurando esas fontes de textos. >>>> Se conseguimos automatizalo un chisco podemos pedir todo o Tilg >>>> >>>> >>>> Aproveito para comentar >>>> Hoxe pedín formalmente ao Centro Ramón Piñeiro acceso ao Corga >>>> Teñen un corpus de 40 millóns de formas que se nos permitisen filtrar >>>> ou mesmo acceder cunha API (creo que agora xa teñen nivel para pedir iso) >>>> sería unha gran solución porque recolle transcricións de series da TVG, >>>> xornais, etc. >>>> >>>> >>>> >>>> >>>> >>>> O xov., 18 de feb. de 2021 ás 18:58, Xabier Villar (< >>>> [email protected]>) escribiu: >>>> >>>>> >>>>> Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P >>>>> >>>>> Estiven enredando un chisco cos ficheiros estes, coa intención de >>>>> limpar un pouquiño, separar as frases e facer unha selección inicial >>>>> daquelas que cumpran algúns dos parámetros (por exemplo, 14 palabras ou >>>>> menos). Non controlo case nada das ferramentas que empreguei, pero >>>>> explícovos o que fixen por se algún de vos pode refinar o proceso ou mesmo >>>>> sacar unha ferramenta que nos permita preprocesar mais textos que poidan >>>>> ir >>>>> aparecendo. >>>>> >>>>> En primeiro lugar asegureime de que os ficheiros estiveran formato >>>>> UNIX e UTF8, como fixo Antón coa orde dos2unix. Como son poucos tamén se >>>>> pode facer cun editor (Kate, que é o que eu emprego, faino bastante >>>>> sinxelo). >>>>> >>>>> Logo, e tendo en conta que estes ficheiros teñen certas construcións >>>>> "estranas", paseille varios filtros con sed. É moi chafulleiro, e funo >>>>> sacando por proba e erro, e aínda así escapáronseme cousas, pero algo >>>>> axudou: >>>>> A orde que empreguei sería: >>>>> sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r >>>>> 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ *\.//' > >>>>> IGTRAP-iso-sed.TXT >>>>> O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o >>>>> terceiro eliminaría as etiquetas con números |##|, e o último amañaba >>>>> algunhas liñas que comezan por espazo e . >>>>> Aínda así escápanse cousas que seguramente se poderían amañar, e >>>>> seguramente estrague algunha frase polo medio, pero penso que paga a pena. >>>>> >>>>> Posteriormente, con python e a libraría nltk separei as frases unha >>>>> por cada liña, e finalmente tamñen con python, creei un ficheiro final >>>>> coas >>>>> frases de 14 palabras ou menos. >>>>> >>>>> A partires de aquí podemos afinar aínda moito mais (eliminar as que >>>>> teñan números ou certas construcións e caracteres que non nos interesen, >>>>> hai que eliminar o ÷ que aparece en moitos sítios, etc... >>>>> >>>>> Co resultado penso que xa se pode traballar á man eliminando aquilo >>>>> que non cumpra uns requisitos mínimos. >>>>> >>>>> Con todo, penso que o importante aquí está en que probablemente >>>>> tirando de ferramentas como o NLTK https://www.nltk.org/ ou Freeling >>>>> http://nlp.lsi.upc.edu/freeling/node/1 se poida adiantar moito >>>>> traballo para tratar con orixes de texto masivas. Estou pensando >>>>> concretamente en quen teña algún blog, ou que chíe moito en twitter, que >>>>> podería baixar eses datos, filtralos, e traballar sobre esa base filtrada. >>>>> Nas mans dalgún dos que sabedes penso que pode dar moito de sí (eu soupen >>>>> de NLTK e Freeling onte pola noite, e de python copio mais de >>>>> stackexchange >>>>> e similares que do que sei XD) >>>>> >>>>> Pégovos por aquí os ficheiros resultado e mais o par de ferramentas >>>>> (por chamarlle algo) que fixen. Sobre o ficheiro filtrado >>>>> (IGTRAP-iso-sed.TXT no pipe anterior) executaría: >>>>> >>>>> python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT >>>>> python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT >>>>> >>>>> Saúdos e graciñas polo traballo que estades a facer! >>>>> >>>>> PD: Insisto, non teño nin idea, así que non me deades moito na cabeza >>>>> pola chapuza :DDDD >>>>> ---------- Forwarded message --------- >>>>> De: Antón Méixome <[email protected]> >>>>> Date: mié, 17 feb 2021 a las 13:04 >>>>> Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta >>>>> "Méixome" contigo. >>>>> To: Lista de correo de Proxecto Trasno <[email protected]> >>>>> >>>>> >>>>> Con esta orde >>>>> >>>>> dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT >>>>> >>>>> Consigo un ficheiro creo que aceptable. Se alguén o sabe facer >>>>> mellor... agradécese >>>>> >>>>> (non sei como se verá en Windows o orixinal, claro) >>>>> >>>>> >>>>> >>>>> >>>>> >>>>> >>>>> >>>>> O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome (< >>>>> [email protected]>) escribiu: >>>>> >>>>>> Santamarina advírteme do seguinte >>>>>> >>>>>> "Van algo manipulados porque os usei para facer unha base de datos >>>>>> lexicográfica e levan por exemplo demarcadores para nomes propios . >>>>>> >>>>>> Tamén separei os pronomes enclíticos do verbo, porque so dúas >>>>>> palabras. >>>>>> >>>>>> Ás veces inclúen textos en castelán ou noutros idiomas; van entre {}. >>>>>> >>>>>> >>>>>> >>>>>> Para textos dialogados se cadra che viña algo mellor algunha obra de >>>>>> teatro >>>>>> >>>>>> >>>>>> >>>>>> Pide os que queiras, non teño problema e facilitarchos." >>>>>> >>>>>> >>>>>> De feito, no meu equipo dime que están en "binario" >>>>>> >>>>>> Parece que non consigo arranxalos >>>>>> >>>>>> >>>>>> >>>>>> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome (< >>>>>> [email protected]>) escribiu: >>>>>> >>>>>>> >>>>>>> A mensaxe anterior contén a bd co índice que obras do TILG. Con esta >>>>>>> accédese aos textos que está procesando manualmente Lucía. >>>>>>> A ver se puidésemos automatizar un pouco a extracción de frases. >>>>>>> >>>>>>> >>>>>>> >>>>>>> ---------- Forwarded message --------- >>>>>>> De: SANTAMARINA FERNANDEZ ANTONIO <[email protected]> >>>>>>> Date: mér., 17 de feb. de 2021 ás 10:05 >>>>>>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta >>>>>>> "Méixome" contigo. >>>>>>> To: [email protected] <[email protected]> >>>>>>> >>>>>>> >>>>>>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo >>>>>>> >>>>>>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió >>>>>>> contigo. >>>>>>> [image: icon] Méixome >>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>>>> >>>>>>> [image: permission globe icon] Este vínculo funcionará para >>>>>>> cualquier persona. >>>>>>> Abrir >>>>>>> <https://nubeusc-my.sharepoint.com:443/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>>>>>> [image: Microsoft logo] [image: Custom logo] >>>>>>> Declaración de privacidad >>>>>>> <https://westeuroper-notifyp.svc.ms:443/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c> >>>>>>> >>>>>> >>>>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>>>> [email protected] >>>>>> - Correo do administrador - [email protected] - de - Proxecto >>>>>> Trasno >>>>>> - Cancelar a subscrición no URL: >>>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088 >>>>>> >>>>> >>>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>>> [email protected] >>>>> - Correo do administrador - [email protected] - de - Proxecto >>>>> Trasno >>>>> - Cancelar a subscrición no URL: >>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664 >>>>> >>>>> >>>>> -- >>>>> >>>>> Xabier Villar >>>>> >>>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>>> [email protected] >>>>> - Correo do administrador - [email protected] - de - Proxecto >>>>> Trasno >>>>> - Cancelar a subscrición no URL: >>>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=e3ae06e280fa03a2f22b124a77624632cfd845c7&sa=1832087367 >>>>> >>>> >>>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>>> [email protected] >>>> - Correo do administrador - [email protected] - de - Proxecto >>>> Trasno >>>> - Cancelar a subscrición no URL: >>>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7341&h=d467096faf50da7027b190afd4d46418dafed60b&sa=1316051188 >>>> >>> >>> - Lista de correo de Proxecto Trasno - Enviar correo a - >>> [email protected] >>> - Correo do administrador - [email protected] - de - Proxecto >>> Trasno >>> - Cancelar a subscrición no URL: >>> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7344&h=2228ed7539ff49c70c895ee58de7154601cd34eb&sa=545143267 >>> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> [email protected] >> - Correo do administrador - [email protected] - de - Proxecto >> Trasno >> - Cancelar a subscrición no URL: >> http://trasno.gal/web?confirm_unsubscribe=indeed&m=7372&h=5d0802b5542d330257ffdb0b6c1fc94e1b920172&sa=282170197 >> > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7378&h=19b6954cfab29e0bcef274d3169414fd0a811695&sa=1416388557 > - Lista de correo de Proxecto Trasno - Enviar correo a - [email protected] - Administrador - [email protected] - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7379&h=259643252051112f73e5803e41301f87feb22e9d&sa=384124664
