Oi Alexandre.

Fantástica a sua colocação: "mas pior ainda é a falta de colaboração e
desnecessária competição que muitas vezes acontecem. "

Por isso mesmo que estamos começando com material já coletado e parcialmente
transcrito nos últimos 50 anos!  Temos ambição de conseguir um córpus de
português falado no Brasil e transcrito que cubra desde 1970 até os dias de
hoje.  Já temos algum material deste período confirmado e estamos tratando
de realizar parcerias que aumentem a quantidade e a qualidade do conteúdo
que será disponibilizado.

"Linguistic resources are very easy to start working on, very hard to
improve and extremely difficult to maintain."  É sua esta frase? Quero
citar com os devidos créditos.

[]s

Marcelo



Em qui., 22 de out. de 2020 às 10:15, Alexandre Rademaker <
[email protected]> escreveu:

>
> Olá Marcelo,
>
> Verdade! Fazem uns 10 anos que venho trabalhando exatamente na criação de
> datasets (corpora, recursos léxicos etc) para o processamento do Português.
> Realmente difícil recebermos apoio e valorização por isso, mas pior ainda é
> a falta de colaboração e desnecessária competição que muitas vezes
> acontecem. Não é incomum pesquisadores começarem novos projetos ao invés de
> colaborar com algum em andamento, acontece no Brazil e em todo lugar.
> Certamente existem várias explicações para este comportamento.
>
> Uma delas é a falta de documentação nos projetos das regras para
> contribuições, quanto se trata de linguagem, certas decisões precisam ser
> tomadas e aceitas, obter consenso para todas as decisões é muito difícil.
>
> Outra é talvez o incentivo à publicações, fácil publicar um artigo dizendo
> ’Existe X, X não é bom/suficiente, então fiz Y’. Bem mais difícil é ter um
> artigo aceito sobre a colaboração com a manutenção de um recurso já
> existente.
>
> E ainda existe má fé, infelizmente! :-( Recursos são incorporados em
> outros sem o devido crédito! Algumas até monetizam sem valorizar os
> desenvolvedores iniciais. Google, felizmente, sempre foi honesto em dar
> crédito à nossa openWordnet-PT:
> https://translate.google.com/intl/en/about/license/
>
> Linguistic resources are very easy to start working on, very hard to
> improve and extremely difficult to maintain.
>
> Ab.,
> Alexandre
>
> > On 22 Oct 2020, at 09:51, Marcelo Finger <[email protected]> wrote:
> >
> > Oi João.
> >
> > V diz: " Agora, *haja tempo* para ouvir os vídeos e editar as
> legendas..."
> >
> > Estou coordenando um grupo que faz exatamente esta tarefa
> sistematicamente, em vídeos genéricos do português.  Para quê? para que
> possamos ter ferramentas de transcrição cada vez melhores e públicas para o
> português, devolver essas e outras ferramentas de processamento de
> linguagem natural.
> >
> > É um trabalho que requer disciplina e muito profissionalismo, que bom
> que você seja capaz de apreciar a importância deste trabalho, embora muitas
> agências de fomento e outros não tem uma visão tão positiva deste tipo de
> atividade. Sendo assim, ela relutam em apoiar financeiramente este trabalho
> de geração e coleta de dados.
> >
> > []s
>
>

-- 
 Marcelo Finger
 Departament of Computer Science, IME
 University of Sao Paulo
 http://www.ime.usp.br/~mfinger
 ORCID: https://orcid.org/0000-0002-1391-1175
 ResearcherID: A-4670-2009

-- 
Você está recebendo esta mensagem porque se inscreveu no grupo "LOGICA-L" dos 
Grupos do Google.
Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um 
e-mail para [email protected].
Para ver esta discussão na web, acesse 
https://groups.google.com/a/dimap.ufrn.br/d/msgid/logica-l/CAGG7Aw10Xhw7dMe6mCQr5WvM2tqPhYiNyPvbWQKUcRCPVw8GDQ%40mail.gmail.com.

Responder a