Gràcies, Jaume, per la idea. Sembla la més raonable en aquest cas. No m'havia imaginat trobar-me 80.000 municipis, sinó deu vegades menys.
De tota manera, aquí és més complicat que el cas del sistema per detectar antropònims desconeguts d'apertium-cat. El problema és que coses com Sainte-Marie-de-Gosse són quatre paraules perquè el guionet es tracta com a separador de paraules. Per tant, seguint la mateixa idea, caldria marcar totes quatre paraules per a impedir-ne la traducció. A més, per a més seguretat, voldria assegurar-me que el separador de paraules és un guionet i no un blanc, i no sé com accedir a aquesta informació en CG. Caldrà demanar-li-ho a en Tino (per la mateixa raó, no sé com canviar el guionet a un blanc en coses com "rue Victor-Hugo"). Quant als antropònims, penso, tanmateix, que cal afegir-los i per això ho faig en els parells en què treballo. * En les llengües que tractem, hi ha molts casos de cognoms que són també noms, adjectius o formes verbals. Això causa coses com: $ echo "Gaudí era arquitecte" | apertium -d . cat-spa Disfrutó era arquitecto * Si realment afegir-los fos un problema, es podrien col·leccionar fora del diccionari i afegir només quan "col·lisionessin" amb una paraula. Però això valdria també per a tots els antropònims d'altres llengües amb el mateix problema. * De tota manera, tampoc resulta una bona opció per als prenoms, per als quals ens interessa saber el gènere, per exemple per a generar correctament el gènere (i el nombre) de l'atribut, particularment en casos de mf o sp de l'atribut en la llengua font (i sense aquesta ambigüitat en la llengua objectiu). * Donat que també prou sovint prenoms i cognoms (i topònims) coincideixen, és bo desambiguar-los per a tenir informació del gènere (i de si cal traduir-los, en el cas d'alguns topònims) i, a vegades, per a la selecció lèxica (a > a, en). * Com més paraules desconegudes tenim, pitjor és per a l'anàlisi sintàctica. Per exemple, per a la traducció al francès cal saber si hi ha subjecte o no per a generar el pronom subjecte o no. * El truc que hi ha ara d'endevinar que pot haver-hi cognoms i que val més no traduir-los és molt enginyós, però a mi, que tinc recollits en els diccionaris moltíssims antropònims, em genera força més problemes que els molt pocs que corregeix. Els problemes es donen, per exemple, en la traducció d'organismes, tractats, etc. que normalment són de més d'una paraula i s'escriuen en majúscules: echo "Comitè Nobel Noruec" | apertium -d . cat-fra-disam "<Comitè>" "comitè" n m sg "<Nobel>" "Nobel" np cog mf sp "<Noruec>" "*Noruec" np SUBSTITUTE:338:nom_propi1 REPLACE:339:nom_propi2 "<.>" "." sent (en cat-spa la traducció és correcta, sembla ser perquè Nobel està afegit com a np.al) En resum, per a topònims i antropònims, crec que val la pena afegir-los massivament als diccionaris, especialment quan tractes llengües mínimament més distants que el català i el castellà. Cordialment, Hèctor Missatge de Jaume Ortolà i Font <jaumeort...@gmail.com> del dia dv., 14 de febr. 2020 a les 1:17: > Certament, afegint topònims o antropònims no acabaríem mai. I arriba un > punt en què això té una utilitat baixa. > > Si l'objectiu és evitar traduccions indesitjables de noms propis, potser > es pot arreglar aplicant algunes regles de CG com les que tenim en spa-cat. > Aquestes regles el que fan és no traduir certes paraules que, pel context, > poden ser noms propis. Pots copiar les mateixes regles, i afegir-ne alguna > més (com ara per a aquests típics noms francesos: Saint-..., ...-de-..., > ...-sur-...). Aquests noms apareixeran marcats amb *, però val més això que > no una traducció absurda. > > Salutacions, > Jaume Ortolà > > > Missatge de Hèctor Alòs i Font <hectora...@gmail.com> del dia dj., 13 de > febr. 2020 a les 23:05: > >> He afegit al traductor fra-cat i por-cat els municipis de Catalunya i el >> País Valencià recollits a les taules Excel d'apertium-cat i que ja estaven >> en el diccionari monolingüe català (n'hi ha que són a les taules, però no >> al diccionari). No representa cap problema afegir-los als altres >> diccionaris perquè només són uns 1500. >> >> El problema és l'invers. Estic en disposició de carregar tots els >> municipis de l'Estat francès, però són uns 80.000. El diccionari monolingüe >> català té ara uns 110.000 lemes, amb la qual cosa gairebé el duplicaria per >> a un ús nul en altres traductors automàtics basats en el català. Alentiria >> les compilacions de tothom, etc. Però sense afegir aquests municipis tinc >> traduccions ridícules com: >> >> echo "Sainte-Marie-de-Gosse" | apertium -d . fra-cat >> Santa-Maria-de-Marrec >> >> Idees? >> >> Hèctor >> _______________________________________________ >> Apertium-catala mailing list >> Apertium-catala@lists.sourceforge.net >> https://lists.sourceforge.net/lists/listinfo/apertium-catala >> >
_______________________________________________ Apertium-catala mailing list Apertium-catala@lists.sourceforge.net https://lists.sourceforge.net/lists/listinfo/apertium-catala