Hi,
I've been working on SentenceDetector, Tokenizer and NameFinder for
Portuguese.
It was hard to figure out why the initial versions of the models were with
poor evaluation results without a detailed output of the false negatives and
false positives.
Because of that I added extra output like the following for
SentenceDetector:
Doc: A impressão de ambos na Bahia foi descrita assim por Outterbridge:
«Senti que eu já conhecia o Brasil antes de ter vindo aqui». Saar
«descobriu» no Brasil o bambu verde. Sua idéia é fazer na 22ª Bienal uma
instalação com bambus no segundo andar que seja vista por cima, do terceiro,
«com toda sua cor e padrão».
{expected:
A impressão de ambos na Bahia foi descrita assim por Outterbridge:
«Senti que eu já conhecia o Brasil antes de ter vindo aqui».
Saar «descobriu» no Brasil o bambu verde.
Sua idéia é fazer na 22ª Bienal uma instalação com bambus no segundo andar
que seja vista por cima, do terceiro, «com toda sua cor e padrão».
}
{predicted:
A impressão de ambos na Bahia foi descrita assim por Outterbridge: «Senti
que eu já conhecia o Brasil antes de ter vindo aqui».
Saar «descobriu» no Brasil o bambu verde.
Sua idéia é fazer na 22ª Bienal uma instalação com bambus no segundo andar
que seja vista por cima, do terceiro, «com toda sua cor e padrão».
}
fp: A impressão de ambos na Bahia foi descrita assim por Outterbridge:
«Senti que eu já conhecia o Brasil antes de ter vindo aqui».
fn: A impressão de ambos na Bahia foi descrita assim por Outterbridge:
fn: «Senti que eu já conhecia o Brasil antes de ter vindo aqui».
Do you think I should commit this to the trunk? I thought we should add an
optional command line argument (maybe -printerrors) that would print this
information.
Thanks
William