Xabier, os meus parabéns! Estaba a traballar no mesmo ca ti, pero ti vas moito máis avanzado. Dálle!
Xosé O Xov, 18 Feb, 2021 at 17:58, Xabier Villar <[email protected]> escribiu: > > Boas a todos! Ando desaparecido do mapa, pero estouvos a vixiar :P > > Estiven enredando un chisco cos ficheiros estes, coa intención de > limpar un pouquiño, separar as frases e facer unha selección > inicial daquelas que cumpran algúns dos parámetros (por exemplo, 14 > palabras ou menos). Non controlo case nada das ferramentas que > empreguei, pero explícovos o que fixen por se algún de vos pode > refinar o proceso ou mesmo sacar unha ferramenta que nos permita > preprocesar mais textos que poidan ir aparecendo. > > En primeiro lugar asegureime de que os ficheiros estiveran formato > UNIX e UTF8, como fixo Antón coa orde dos2unix. Como son poucos > tamén se pode facer cun editor (Kate, que é o que eu emprego, faino > bastante sinxelo). > > Logo, e tendo en conta que estes ficheiros teñen certas > construcións "estranas", paseille varios filtros con sed. É moi > chafulleiro, e funo sacando por proba e erro, e aínda así > escapáronseme cousas, pero algo axudou: > A orde que empreguei sería: > sed -r 's,\.\*([a-zA-Z]+)[.:;],\1 ,g' IGTRAP-iso.TXT|sed -r > 's,<\*([a-zA-Z,\ ,\*]+)>,\1,g'|sed -r 's/\|[0-9]+\|//'|sed 's/^\ > *\.//' > IGTRAP-iso-sed.TXT > O primeiro cambiaría .*NOME. por NOME, o segundo <*NOME> por NOME, o > terceiro eliminaría as etiquetas con números |##|, e o último > amañaba algunhas liñas que comezan por espazo e . > Aínda así escápanse cousas que seguramente se poderían amañar, e > seguramente estrague algunha frase polo medio, pero penso que paga a > pena. > > Posteriormente, con python e a libraría nltk separei as frases unha > por cada liña, e finalmente tamñen con python, creei un ficheiro > final coas frases de 14 palabras ou menos. > > A partires de aquí podemos afinar aínda moito mais (eliminar as que > teñan números ou certas construcións e caracteres que non nos > interesen, hai que eliminar o ÷ que aparece en moitos sítios, etc... > > Co resultado penso que xa se pode traballar á man eliminando aquilo > que non cumpra uns requisitos mínimos. > > Con todo, penso que o importante aquí está en que probablemente > tirando de ferramentas como o NLTK <https://www.nltk.org/> ou > Freeling <http://nlp.lsi.upc.edu/freeling/node/1> se poida adiantar > moito traballo para tratar con orixes de texto masivas. Estou > pensando concretamente en quen teña algún blog, ou que chíe moito > en twitter, que podería baixar eses datos, filtralos, e traballar > sobre esa base filtrada. Nas mans dalgún dos que sabedes penso que > pode dar moito de sí (eu soupen de NLTK e Freeling onte pola noite, > e de python copio mais de stackexchange e similares que do que sei XD) > > Pégovos por aquí os ficheiros resultado e mais o par de ferramentas > (por chamarlle algo) que fixen. Sobre o ficheiro filtrado > (IGTRAP-iso-sed.TXT no pipe anterior) executaría: > > python3 nltk-sent.py IGTRAP-iso-sed.TXT IGTRAP-sentences.TXT > python3 14word-sent.py IGTRAP-sentences.TXT IGTRAP-14Wsentences.TXT > > Saúdos e graciñas polo traballo que estades a facer! > > PD: Insisto, non teño nin idea, así que non me deades moito na > cabeza pola chapuza :DDDD > ---------- Forwarded message --------- > De: *Antón Méixome* <[email protected] > <mailto:[email protected]>> > Date: mié, 17 feb 2021 a las 13:04 > Subject: Re: Fwd: SANTAMARINA FERNANDEZ ANTONIO compartió la > carpeta "Méixome" contigo. > To: Lista de correo de Proxecto Trasno <[email protected]> > > > Con esta orde > > dos2unix -v -f -iso -n PRICON.TXT pricon-iso.TXT > > Consigo un ficheiro creo que aceptable. Se alguén o sabe facer > mellor... agradécese > > (non sei como se verá en Windows o orixinal, claro) > > > > > > > > O mér., 17 de feb. de 2021 ás 12:46, Antón Méixome > (<[email protected] <mailto:[email protected]>>) escribiu: >> Santamarina advírteme do seguinte >> >> "Van algo manipulados porque os usei para facer unha base de datos >> lexicográfica e levan por exemplo demarcadores para nomes propios . >> Tamén separei os pronomes enclíticos do verbo, porque so dúas >> palabras. >> >> Ás veces inclúen textos en castelán ou noutros idiomas; van entre >> {}. >> >> >> >> Para textos dialogados se cadra che viña algo mellor algunha obra >> de teatro >> >> >> >> Pide os que queiras, non teño problema e facilitarchos." >> >> >> De feito, no meu equipo dime que están en "binario" >> >> Parece que non consigo arranxalos >> >> >> >> O mér., 17 de feb. de 2021 ás 11:45, Antón Méixome >> (<[email protected] <mailto:[email protected]>>) escribiu: >>> >>> A mensaxe anterior contén a bd co índice que obras do TILG. Con >>> esta accédese aos textos que está procesando manualmente Lucía. >>> A ver se puidésemos automatizar un pouco a extracción de frases. >>> >>> >>> >>> ---------- Forwarded message --------- >>> De: *SANTAMARINA FERNANDEZ ANTONIO* <[email protected] >>> <mailto:[email protected]>> >>> Date: mér., 17 de feb. de 2021 ás 10:05 >>> Subject: SANTAMARINA FERNANDEZ ANTONIO compartió la carpeta >>> "Méixome" contigo. >>> To: [email protected] <mailto:[email protected]> >>> <[email protected] <mailto:[email protected]>> >>> >>> >>> __ >>> SANTAMARINA FERNANDEZ ANTONIO compartió una carpeta contigo >>> >>> Aquí está la carpeta que SANTAMARINA FERNANDEZ ANTONIO compartió >>> contigo. >>> >>> Méixome >>> <https://nubeusc-my.sharepoint.com/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>> >>> Este vínculo funcionará para cualquier persona. Abrir >>> <https://nubeusc-my.sharepoint.com/:f:/g/personal/anton_santamarina_usc_es/Er4h8cjtCvpGgIeXpVk9O_IBI0jNzkKYrPh9KQxKwx_YNg?e=5%3aU0P74p&at=9> >>> >>> Declaración de privacidad >>> <https://westeuroper-notifyp.svc.ms/api/v2/tracking/method/Click?mi=fiB_RGJXt0K0Q_CNUipZmg&tc=PrivacyStatement&cs=f97d4ae4336b3342c9a937ee3f36e84e&ru=https%3a%2f%2fprivacy.microsoft.com%2fprivacystatement%5c> >> >> - Lista de correo de Proxecto Trasno - Enviar correo a - >> [email protected] >> - Correo do administrador - [email protected] - de - >> Proxecto Trasno >> - Cancelar a subscrición no URL: >> <http://trasno.gal/web?confirm_unsubscribe=indeed&m=7327&h=3afa62a1eb4964da21bdc93145d12cca3721cd76&sa=239831088> >> > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > <http://trasno.gal/web?confirm_unsubscribe=indeed&m=7328&h=e4cd54a3b24db90764dbdaa699b953bb94b4fb7f&sa=585566664> > > > > -- > > Xabier Villar > > - Lista de correo de Proxecto Trasno - Enviar correo a - > [email protected] > - Correo do administrador - [email protected] - de - Proxecto > Trasno > - Cancelar a subscrición no URL: > http://trasno.gal/web?confirm_unsubscribe=indeed&m=7338&h=c4d822616120c321fecba14b94891c270a19f42c&sa=1522867080 > - Lista de correo de Proxecto Trasno - Enviar correo a - [email protected] - Administrador - [email protected] - de - Proxecto Trasno - Cancelar a subscrición no URL : http://trasno.gal/web?confirm_unsubscribe=indeed&m=7340&h=ae6e167ab9d0783bc80eed1ec139e4316b353c30&sa=441107818
