Re: [okfn-br] relação entre a abertura de dados e a Reprodutibilidade em Ciências

Peter Krauss Thu, 25 Feb 2016 06:38:06 -0800

Oi Daniela, obrigado oferecer ao publico slides relevantes de forma mais
aberta!  Poderia acrescentar licença <https://creativecommons.org/choose/>?



Não pude ler tudo, chamaram atenção os comentários sobre estudo do Van
Noorden <http://dx.doi.org/10.1038/nature.2015.17694>  (não vi links para
dados e detalhes metodológicos, voce tem isso?)

- - -
Retomando o assunto de 2015...

No geral, acho que já há uma boa dose de consciência da relevância e dos
desafios da comunidade científica brasileira, mas pouquíssimos deram o
passo seguinte que é conhecer e *usar os padrões*... Enquanto não houver
aderência aos padrões nada cresce de forma sustentável, e continuaremos
interagindo mais com os gringos do que entre nós... Padronizar e cooperar
são sinônimos nesse contexto.

Fica a sugestão de aproveitar o seu público, já conscientizado dos
conceitos e problemas, e oferecer a eles uma  apresentação ou workshop
complementar,  sobre padrões essenciais...

- - - -

... Pessoalmente, para dados pulverizados (que depois formam uma massa
coerente de *big data* conforme uso),  acho que são esses dois:

* *JATS* - https://en.wikipedia.org/wiki/Journal_Article_Tag_Suite
* *CSV com semântica* - https://www.w3.org/TR/tabular-data-model/

No caso de padrões específicos de uma base mais especializada, como as
bases já clássicas de astronomia e genoma, a solução aberta para fomentar o
uso, é oferecer descrição dos metadados via padrões da Web Semântica, tais
como  JSON-LD <http://json-ld.org/> e  Microdata
<https://www.w3.org/TR/microdata/> (ex. SchemaOrg
<http://schema.org/docs/gs.html>), que vêm se consolidando.

PS: existem também iniciativas de *big-data* de uso científico e apoio do
publico (*crowdsourcing*) e pesquisadores (vide bases cartográficas PostGIS
<http://postgis.org/> nas universidades), o exemplo mais importante creio
que seja o OpenStreetMap
<http://wiki.openstreetmap.org/wiki/Databases_and_data_access_APIs>.


Em 25 de fevereiro de 2016 10:32, Daniela Brauner <[email protected]>
escreveu:

> Olá Peter e demais integrantes da lista,
>
> Desculpem me pela demora pra responder o email de setembro 2015.
> Obrigada por todas as informações (muito legal!)
>
> Eis o link dos slides, da apresentação que fiz sobre compartilhamento de
> dados científicos em 2015:
> https://docs.google.com/presentation/d/1ZpvQ_7_9CuqmLpCrY2X25kekVgIbsL7nnPcsmhfHzN4/edit?usp=sharing
>
> Gostaria de saber se vcs tem um grupo para discutir mais ativamente (por
> hangout ou ferramentas online). Estou no RS e gostaria de participar de
> forma remota. ;) Não só das atividades relacionadas à dados abertos
> cientificos, mas dados abertos no geral.
>
> Obrigada
>
> Abs
> Dani
>
>
>
> Em 12 de setembro de 2015 08:39, Peter Krauss <[email protected]>
> escreveu:
>
>> Olá Daniela,
>>
>> Na minha visão o JATS em OpenAccess  já é uma iniciativa revolucionária
>> de dados abertos (!).
>> Claro, sempre há potencial para fazer mais, porém há necessidade de
>> seguir passo-a-passo a evolução, consolidar as coisas... consolidar a
>> cultura.
>>
>> O SciELO SPS
>> <http://docs.scielo.org/projects/scielo-publishing-schema/pt_BR/1.2-branch/> 
>> é
>> como um "JATS ABNT", ou seja, é de fato o padrão brasileiro para registrar
>> artigos científicos.
>>  PS: as editoras e o governo (ex. FAPESP) já vem investindo nisso desde
>> 2013.
>>
>> Comentei do *Material Suplementar* pois ele faz parte desse padrão, e os
>> recursos oficiais (esquema de "depósito legal
>> <https://en.wikipedia.org/wiki/Legal_deposit>" do artigo científico),
>> como o acervo SciELO, permitem o depósito casado do artigo com o seu
>> material suplementar.
>> ... Este artigo da descoberta das cores do camaleão
>> <http://dx.doi.org/10.1038/ncomms7368> tem bons exemplos de material
>> suplementar, e está também disponível no repositório PubMed Central
>> <http://www.ncbi.nlm.nih.gov/pmc/articles/PMC4366488/> (para obter o
>> JATS ver links FTP
>> <http://www.ncbi.nlm.nih.gov/pmc/utils/oa/oa.fcgi?id=PMC4366488>)...
>> Exemplo de revista rica em tabelas e materiais suplementares JATS, tem a PLOS
>> ONE <http://www.ncbi.nlm.nih.gov/pmc/journals/440/> e a brasileira GMB
>> <http://www.ncbi.nlm.nih.gov/pmc/journals/1440/>.
>>
>> O incrível, que chama atenção, é que a cultura das revistas e dos autores
>> é uma barreira: não existem barreias técnicas atualmente, pelo contrário
>> (!).  É preciso ensinar a comunidade científica a usar os recursos mais
>> simples, nem sequer o mais simples vem sendo usado.
>>   PS: as estatísticas de uso de material suplementar nas revistas são
>> baixíssimas (inferior a 1% dos artigos com tabelas), e editores brasileiros
>> insistem em publicar tabelas de dados imensas em PDF ao invés de focar no
>> conteúdo (ex. tabelas com estatísticas e sumarizações), e exigir que
>> autores usem o recurso do material suplementar.
>>
>> Enfim, JATS XML é o que temos de melhor e de mais amplamente usado nos
>> dias de hoje para "Compartilhar dados científicos"...
>> É ainda um  "compartilhar" restrito à publicação de artigos científicos
>> (conteúdo, metadados do conteúdo, e dados suplementares do artigo).
>>
>> Perceba o quanto isso é importante, e o quanto ainda estamos patinando na 
>> *barreira
>> cultural*...
>> Veja o exemplo dos seus slides
>> <http://www.slideshare.net/DanielaBrauner/apresentacao-forumrnp-2015-daniela-brauner>:
>> não posso copiar/colar trechos de texto, não posso seguir links, pois estão
>> no formato imagem... É um conteúdo aberto, mas com apenas uma estrela
>> <http://5stardata.info/en/>. A aderência a uma "nova cultura" precisa
>> ser ampla...
>>
>>  - - -
>>
>> Já o compartilhamento de dados em bancos de dados eu vejo como uma
>> evolução, que dependeria um pouco de termos essa cultura mais sólida.
>> De qualquer forma, como iniciativa, os *bancos de dados compartilhados* 
>> correm
>> em paralelo,
>> não podem ser confundidos como uma "obrigação do pesquisador"
>> (ao contrário do JATS que hoje é uma exigência do SciELO, do PubMed
>> Central e diversos outros repositórios sérios).
>>
>> Algumas áreas possuem padrões, ferramentas, etc. que permitem o uso de
>> bancos de dados compartilhados e *big data*: OpenStreetMaps
>> <http://www.openstreetmap.org/> é um exemplo onde cientistas e pessoas
>> comuns compartilham dados...
>> A cada área (física de partículas, genética, análise climática, etc.
>> etc.) pode ou não haver oportunidade de uso de grandes bancos de dados. A
>> maior parte ainda não tem seu *big data* padronizado e compartilhado.
>>
>> Além do *big data*, existem os casos intermediários, entre "material
>> suplementar" (ex. planilhas em formato CSV) e o banco de dados, que são os
>> chamados *datasets*, promovidos pela OKFN no projeto *Data Packaged Core
>> Datasets* <https://github.com/datasets/>.
>>
>> Esses bancos de dados (dos *datasets* ao *big data*), para terem
>> sucesso, exigem uma certa democracia para que sejam de fato atrativos,
>> confiáveis, transparentes.... É o que chamam de *curadorias digitais*.
>> Além disso o critério de *veracidade* (inerente à questão da
>> reprodutibilidade científica) de cada área do conhecimento requer uma certa
>> "intuição coletiva", que só uma curadoria ampla e igualmente aberta pode
>> assegurar.
>> No Brasil ainda estão nascendo as curadorias e as bases de dados
>> compartilhadas... são pouquíssimos os exemplos pois, novamente, há uma
>> cultura acadêmica arraigada do "meus dados", como você bem lembrou.
>>
>>
>> (respondendo *inline* os detalhes)
>>
>> Em 11 de setembro de 2015 11:05, Daniela Brauner <[email protected]>
>>  escreveu:
>>
>>> Oi Peter e amigos
>>>
>>> Pois então.... As editoras, agências de financiamento e quem sabe até as
>>> próprias universidades e outros, que obtém resultados de P&D, deveriam ter
>>> repositórios ou exigir que os dados utilizados em artigos fossem
>>> compartilhados de forma aberta.
>>>
>>
>> tentei expressar acima, fique a vontade para replicas ;-)
>>
>>
>>> Já existem plataformas que permitem isso como o Dataverse criado em
>>> Harvard.
>>>
>>>
>> Dei uma olhada mas nunca havia usado... Existem exemplos brasileiros?
>> Qual a vantagem em relação a uma base especializada, ou em relação aos
>> repositórios JATS genéricos?
>>
>>
>>> Mas temos alguns desafios importantes para resolver para garantir o
>>> reuso a longo prazo desse tipo de dados (IDs persistentes das coleções,
>>> proveniência etc. Coisas que sabemos como fazer basta colocar em prática).
>>>
>>
>> Bem lembrado, e acredito que "identificar" é o primeiro passo para
>> qualquer iniciativa... Conheço a fundo três exemplos de IDs persistentes,
>>
>> * *DOI*: de longe o mais difundido, apesar do custo não ser irrisório.
>>
>> * *ISSN*: difundido apenas para revistas, mas poderia estar acoplado ao
>> DOI (além de igualmente custoso), é mau usado nesse sentido, tenho um
>> projeto OKBr para isso, https://github.com/okfn-brasil/ISSN-L-Resolver
>>
>> * LexML e as *URNs LEX*: o único exemplo 100% brasileiro, sem custo,  e
>> transparente. Gosto muito dele, ver http://www.lexml.gov.br/     Para
>> apoiar outros usos tem o projeto OKBr
>> https://github.com/okfn-brasil/getlex
>>
>>
>>
>>> Existe uma variedade muito grande de formatos, tipos e metadados, que
>>> dificultam a interoperabilidade mas acredito que as barreiras culturais
>>> ainda são o maior impedimento... "Os MEUS dados".
>>>
>>>
>> Discuti acima a solução que se consolidou em artigos científicos: *JATS*
>> (e CSV para materiais suplementares).
>>
>>
>>
>>> Fiz uma apresentação sobre isso outro dia onde tentei listar os desafios
>>> e falei sobre uma iniciativa que apoia discussões sobre compartilhamento e
>>> reuso de dados científicos, chamada RDA.
>>>
>>> Checkout:
>>> http://www.slideshare.net/DanielaBrauner/apresentacao-forumrnp-2015-daniela-brauner
>>>  Apresentacao
>>> ForumRNP 2015 - Daniela Brauner
>>>
>>>
>> Parece muito boa (!), tem como nos passar em formato aberto?
>> ;-)
>>
>>
>>
>>
>>> Abs
>>> Daniela
>>>
>>>
>>
>>
>>
>>>
>>> Em 11/09/2015, às 06:14, Peter Krauss <[email protected]> escreveu:
>>>
>>> Um dos pilares do método científico e do "fazer Ciência" é a
>>> Reprodutibilidade <https://en.wikipedia.org/wiki/Reproducibility>...
>>>
>>> Quando falamos de *publicações científicas* abertas (muito da produção
>>> brasileira está hoje concentrada nos acervos do SciELO
>>> <https://en.wikipedia.org/wiki/SciELO>),
>>> ou seja, de OpenAccess <https://en.wikipedia.org/wiki/Open_access>,
>>> esquecemos da relação que isso tem com o conceito de *reprodutibilidade
>>>  *-- e não só com *transparência* e *direito de acesso ao conhecimento*.
>>>
>>> Um bom exemplo de aplicação prática do conceito é a publicação de
>>> tabelas em artigos.
>>> A *reprodutibilidade* é o que de fato explica o porquê, quando o
>>> pesquisador publica seu artigo científico numa revista,
>>> de *não* ser recomendado publicar *tabelas* em formato imagem (!), e de
>>> não ser suficiente a revista oferecer apenas o PDF do artigo:
>>>
>>> * o ideal é enviar como materal suplementar
>>> <http://jats.nlm.nih.gov/publishing/tag-library/1.1d3/element/supplementary-material.html>
>>>  uma tabela CSV <http://www.w3.org/standards/techs/csv#w3c_all> ou
>>> planilha aberta, (um "conteudo pelo menos 4 estrelas
>>> <http://5stardata.info/en/>") para que *outros pesquisadores
>>> possam reproduzir as contas*, reutilizando operacionalmente a  tabela
>>> publicada.
>>>
>>> * o correto, dentro dos padrões atuais, é a tabela estar expressa em
>>> HTML, com dados linha a linha
>>> <http://jats.nlm.nih.gov/publishing/tag-library/1.1d3/chapter/tag-tables.html>
>>>  para
>>> podermos copiar/colar do acervo online para uma  planilha.
>>>
>>> As revistas dos principais acervos, como SciELO e PubMed Central, são
>>> obrigadas hoje a entregar cada artigo, enquanto obra e documento oficial,
>>> em ambos formatos, PDF e XML JATS
>>> <https://en.wikipedia.org/wiki/Journal_Article_Tag_Suite> -- é o XML
>>> que dá origem à indexação, ao HTML, EPUB, etc. automaticamente.
>>>
>>> - - -
>>> O link abaixo veio de uma dica da Carol aqui na Lista (desculpem perdi o
>>>  *thread* de onde cliquei o bookmark essa semana),
>>> muito bom, sobre esse assunto de "reprodutibilidade dos resultados do
>>> pesquisador",
>>>
>>>
>>> http://www.ibtimes.com/scrutinizing-scientific-method-researchers-massive-open-access-study-fail-replicate-2071483
>>>
>>> *A publicação científica* se torna de fato *conhecimento* depois dos
>>> pares terem *reproduzido*, que na prática é uma auditoria ;-)
>>> não é muito diferente das contas públicas do governo.
>>>
>>> _______________________________________________
>>> okfn-br mailing list
>>> [email protected]
>>> https://lists.okfn.org/mailman/listinfo/okfn-br
>>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>
>>>
>>> _______________________________________________
>>> okfn-br mailing list
>>> [email protected]
>>> https://lists.okfn.org/mailman/listinfo/okfn-br
>>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>>
>>>
>> _______________________________________________
>> okfn-br mailing list
>> [email protected]
>> https://lists.okfn.org/mailman/listinfo/okfn-br
>> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>>
>>
>
> _______________________________________________
> okfn-br mailing list
> [email protected]
> https://lists.okfn.org/mailman/listinfo/okfn-br
> Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br
>
>

_______________________________________________
okfn-br mailing list
[email protected]
https://lists.okfn.org/mailman/listinfo/okfn-br
Unsubscribe: https://lists.okfn.org/mailman/options/okfn-br

Re: [okfn-br] relação entre a abertura de dados e a Reprodutibilidade em Ciências

Responder a