Oi Alexandre. Fantástica a sua colocação: "mas pior ainda é a falta de colaboração e desnecessária competição que muitas vezes acontecem. "
Por isso mesmo que estamos começando com material já coletado e parcialmente transcrito nos últimos 50 anos! Temos ambição de conseguir um córpus de português falado no Brasil e transcrito que cubra desde 1970 até os dias de hoje. Já temos algum material deste período confirmado e estamos tratando de realizar parcerias que aumentem a quantidade e a qualidade do conteúdo que será disponibilizado. "Linguistic resources are very easy to start working on, very hard to improve and extremely difficult to maintain." É sua esta frase? Quero citar com os devidos créditos. []s Marcelo Em qui., 22 de out. de 2020 às 10:15, Alexandre Rademaker < [email protected]> escreveu: > > Olá Marcelo, > > Verdade! Fazem uns 10 anos que venho trabalhando exatamente na criação de > datasets (corpora, recursos léxicos etc) para o processamento do Português. > Realmente difícil recebermos apoio e valorização por isso, mas pior ainda é > a falta de colaboração e desnecessária competição que muitas vezes > acontecem. Não é incomum pesquisadores começarem novos projetos ao invés de > colaborar com algum em andamento, acontece no Brazil e em todo lugar. > Certamente existem várias explicações para este comportamento. > > Uma delas é a falta de documentação nos projetos das regras para > contribuições, quanto se trata de linguagem, certas decisões precisam ser > tomadas e aceitas, obter consenso para todas as decisões é muito difícil. > > Outra é talvez o incentivo à publicações, fácil publicar um artigo dizendo > ’Existe X, X não é bom/suficiente, então fiz Y’. Bem mais difícil é ter um > artigo aceito sobre a colaboração com a manutenção de um recurso já > existente. > > E ainda existe má fé, infelizmente! :-( Recursos são incorporados em > outros sem o devido crédito! Algumas até monetizam sem valorizar os > desenvolvedores iniciais. Google, felizmente, sempre foi honesto em dar > crédito à nossa openWordnet-PT: > https://translate.google.com/intl/en/about/license/ > > Linguistic resources are very easy to start working on, very hard to > improve and extremely difficult to maintain. > > Ab., > Alexandre > > > On 22 Oct 2020, at 09:51, Marcelo Finger <[email protected]> wrote: > > > > Oi João. > > > > V diz: " Agora, *haja tempo* para ouvir os vídeos e editar as > legendas..." > > > > Estou coordenando um grupo que faz exatamente esta tarefa > sistematicamente, em vídeos genéricos do português. Para quê? para que > possamos ter ferramentas de transcrição cada vez melhores e públicas para o > português, devolver essas e outras ferramentas de processamento de > linguagem natural. > > > > É um trabalho que requer disciplina e muito profissionalismo, que bom > que você seja capaz de apreciar a importância deste trabalho, embora muitas > agências de fomento e outros não tem uma visão tão positiva deste tipo de > atividade. Sendo assim, ela relutam em apoiar financeiramente este trabalho > de geração e coleta de dados. > > > > []s > > -- Marcelo Finger Departament of Computer Science, IME University of Sao Paulo http://www.ime.usp.br/~mfinger ORCID: https://orcid.org/0000-0002-1391-1175 ResearcherID: A-4670-2009 -- Você está recebendo esta mensagem porque se inscreveu no grupo "LOGICA-L" dos Grupos do Google. Para cancelar inscrição nesse grupo e parar de receber e-mails dele, envie um e-mail para [email protected]. Para ver esta discussão na web, acesse https://groups.google.com/a/dimap.ufrn.br/d/msgid/logica-l/CAGG7Aw10Xhw7dMe6mCQr5WvM2tqPhYiNyPvbWQKUcRCPVw8GDQ%40mail.gmail.com.
