Moltes gràcies, Xavi. Molt interessant.

El problema del tagger (assignar probabilitats diferents a principi de
frase segons el que hi ha abans) s'hauria d'intentar resoldre perquè si no
continuarem exposats al mateix risc. Quan comença una frase nova, hauria de
començar sempre igual. No té sentit fer-ho d'una altra manera.

El tagger, efectivament, caldria entrenar-lo de nou. La meua impressió ara
mateix és que no fa quasi res de productiu. Quan introduïm una paraula nova
en el diccionari que crea ambigüitat (per exemple, una cosa molt simple com
ara un substantiu que coincideix amb una forma verbal), el tagger falla
moltíssim. Fa la impressió de tirar monedes a l'aire. I l'única manera
d'arreglar-ho és fer més regles CG.

Es pot arribar a crear un sistema de regles de desambiguació prou eficaç.
Ho hem fet, per exemple, en LanguageTool. Sé que l'IEC també té un sistema
de regles molt complet per a etiquetar. Ara, segons la finalitat, les
regles han de ser lleugerament diferents. I el conjunt de regles pot
arribar a ser prou voluminós. Hauríem de valorar  tot això.

Salutacions,
Jaume Ortolà


Missatge de Xavi Ivars <xavi.iv...@gmail.com> del dia dg., 20 d’oct. 2019 a
les 23:04:

> Sembla que el problema és que el tagger no reinicia les probabilitats de
> la mateixa manera quan arriba a un final de frase o quan una frase comença.
> I les probabilitats que hi assigna són diferents segons el context.
>
> He aconseguit trobar un punt que fa que el primer cas canvie.+
>
> En aquest cas, funciona correctament.
>
> echo "Eren deu quatre homes. El marit havia estat fan de l'actor." |
> apertium -d . cat-spa-disamb
>
> En aquest cas, no
>
> echo "Eren deu mil homes. El marit havia estat fan de l'actor." | apertium
> -d . cat-spa-disamb
>
> Tot i que sembla igual ("deu quatre" no té cap sentit, però l'anàlisi de
> quatre acaba sent la mateixa, <num><mf><sp>), al tagger no li arriba la
> mateixa informació.
>
> Sembla que hi ha algunes regles de CG que lleven possibles anàlisi de la
> paraula *deu*
>
> En el primer cas, el resultat després de CG
> és  ^deu/deu<num><mf><sp>/deu<n><f><sg>/deure<vblex><pri><p3><sg>$
>
> S'han aplicat estes regles de
> REMOVE: 
> /¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>
>
>
> En canvi, en el segon cas, al tagger li arriba
>  ^deu/deu<num><mf><sp>/deure<vblex><pri><p3><sg>$
>
> S'han aplicat les regles
> /¬deu<n><f><sg><REMOVE:351:deu_num>/¬deure<vblex><imp><p2><sg><REMOVE:574>/¬deure<vbmod><pri><p3><sg><REMOVE:604:deure_vbmod>$
>
>
> El tagger de català es va entrenar fa molts anys, amb diccionaris molt
> diferents, i amb una entrada extremadament més ambigua que ara, ja que
> no teníem l'elevada quantitat de regles CG que tenim ara.
>
> Crec que la millor solució seria reentrenar el tagger, i comparar els
> resultats.
>
> Gema <grami...@prompsit.com>, vosaltres teniu instruccions de com fer
> l'entrenament amb el tagger antic?
>
> Marc <marc.riera.irigo...@gmail.com>, seria molt complex fer-ho amb el
> mateix que vas fer l'anglés?
>
> --
> < Xavi Ivars >
> < http://xavi.ivars.me >
>
_______________________________________________
Apertium-catala mailing list
Apertium-catala@lists.sourceforge.net
https://lists.sourceforge.net/lists/listinfo/apertium-catala

Reply via email to