Re: [IWETEL] [Tinkepi] Compartir datos (data sharing) en ciencia: el contexto de una oportunidad

oskar calvo Sat, 03 Oct 2009 10:18:06 -0700

Yo creo que compartir es crecer, y (perdonad que sea pesado) la comunidad de 
Software LIbre a nivel mundial es un buen ejemplo de ello.


En muchos aspectos de la informática los desarrollos, crecimientos y mejoras no 
vienen de las grandes empresas, sino de las comunidades de software libre. El 
hecho de compartir el conocimiento (código fuente, manuales de trabajo, etc...) 
ha permitido que muchos programadores peudan partir de desarrollos más 
avanzados a la hora de crear sus propios programas, es la diferencia de los 
sofware privativos, que sus desarrollos parten de cero, y/o últimamente estan 
añadiendo librerías de software libre (aunque no lo dicen).

Lo más importante, y donde la comunidad de s.l. es más seria es en el respeto 
de las licencias y autorías, normalmente se referencia e indica los autores 
originales de donde se han cogido parte de código, ideas, formas de trabajar 
etc...

Al final todo responde a la sinceridad de los investigadores en reconocer de 
donde parten y con que datos.

Creo que es una gran oportunidad para la comunidad.

Oskar


*****************

Oskar Calvo Vidal

Documentalista. 

Consultor.

*****************

+++++++++++++++++++++++++++++++++++++++++++

Blog:

http://www.documentados.com/blog/oskar

Proyecto Archon: 

http://traducirarchon.wordpress.com/

Catalogo software libre:

http://catalogosl.wordpress.com/

Canal Documentados:

http://www.lacoctelera.com/canaldocumentados

canales de blogline

http://www.bloglines.com/public/oskarcalvo

recursos de del.icio.us

http://del.icio.us/oskar_calvo

++++++++++++++++++++++++++++++++++++++++++++

--- El jue, 1/10/09, ThinkEPI ThinkEPI <[email protected]> escribió:

De: ThinkEPI ThinkEPI <[email protected]>
Asunto: [IWETEL] [Tinkepi] Compartir datos (data sharing) en ciencia: el 
contexto de una oportunidad
Para: [email protected]
Fecha: jueves, 1 octubre, 2009 10:21


Compartir datos (data sharing) en ciencia: el contexto de una oportunidad
Por Daniel Torres-Salinas
 
Introducción
Recientemente la revista Nature ha dedicado un número especial (1) a un tema 
relevante relacionado con la comunicación científica, el data sharing; es decir 
la acción de compartir con otros colegas los ficheros de datos, lo que solemos 
llamar raw data, generados durante el curso de una investigación. Idealmente, 
por ejemplo, si trabajas en medicina consistiría en poner en línea para 
descarga todos los datos, convenientemente organizados, de los pacientes que 
han participado en un ensayo clínico o, si trabajas en bibliometría, los 
ficheros .txt, .xls o .mdb con las publicaciones que has analizado. En fin, un 
concepto bastante fácil de entender y que aunque pueda parecer muy en la línea 
de la ciencia 2.0 ya Galton en 1901 afirmó que no se debería dejar publicar 
estudios biométricos si previamente los datos no se depositaban en algún lugar 
para su consulta (2) (Hrynaszkiewicz, 2009). Asimismo, en lo que a repositorios 
se refiere, uno de los
 más veteranos, el Protein Data Bank (3), se inició en 1971 y una de las 
primeras revista en exigir los datos como condición para la publicación fue el 
Journal of Biological Chemistry en 1983 (Crawford et al., 1996). Por tanto 
estamos ante un viejo tema cuyo debate parece reabrirse periódicamente y en el 
que tal vez los documentalistas tengamos algo que decir; por ello, en esta 
nota, expondremos brevemente algunas de las cuestiones que rodean a esta 
práctica científica.

 
A favor, en contra
Según Nelson (2009) la publicación en acceso abierto de los datos es percibida 
por la mayor parte de los investigadores como un ideal científico y algo 
beneficioso; sin embargo no deja de ser una corriente muy minoritaria. En la 
literatura se ha dado buena cuenta de sus bondades ya que compartir datos 
contribuye a reproducir, replicar y verificar resultados obtenidos por otros 
(Renolls, 1997), favorece la posibilidad de reutilización de esos datos para 
otro tipo de análisis diferente al original (Piwowar y Fridsman, 2007), permite 
combinar diferentes archivos para realizar metaánalisis (Ramasamy et al., 2008) 
y es un arma eficaz en la lucha contra el fraude. Y si esto no nos convence, 
además, produce una aceleración en la citación e incrementos en el número de 
citas del 70% (Piwowar et. al, 2008). Sin embargo pese a la percepción positiva 
y al puñado de argumentos, los científicos no se animan y el investigador 
prefiere mantener sus ficheros
 en su disco duro hasta que un día éste le dé error fatal y desaparezcan para 
siempre. 

 
Claro, si uno analiza la cuestión, no les falta razón ya que por ahora son 
muchas las dudas en torno al tema. La cuestión básica “¿dónde deposito mis 
datos?” aún no está resuelta ya que apenas existen repositorios ni 
infraestructuras y además, en el caso de que se crearan, las incertidumbres 
sobre el destino de los datos son enormes; la escasa protección en caso de 
apropiaciones indebidas, la falta de reconocimiento a la hora de ser citado o 
la posibilidad de que otros hagan papers a costa de nuestro esfuerzo, son 
cuestiones a resolver. Pero principalmente no olvidemos que los datos son el 
motor de las publicaciones y éstas para el científico son un bien 
intercambiable por dinero en forma de tramos o de financiación y nadie en su 
sano juicio va a poner a disposición de desconocidos su pequeño capital. Por 
todo esto el data sharing como práctica generalizada implica no sólo un cambio 
cultural sino también unas reglas de juego bien
 establecidas; y aunque puede generar beneficios colectivos también puede 
provocar perjuicios individuales y al final, estos últimos, decantan la balanza.

 
Compartir datos por decretazo
Sin embargo ya hay algunos que se están tomando el tema en serio y si no 
quieren compartir voluntariamente se les obliga. Esta posición se entiende 
desde el punto de vista de una administración pública ya que ellas financian la 
investigación y el output de sus proyectos no debe ser sólo un conjunto de 
resultados y conclusiones. Ellas también tendrían que reclamar los datos 
generados que deberían poder ser utilizados por otros científicos del mismo 
sistema público. Asimismo se reciclarían todos esos proyectos que no alcanzaron 
los resultados esperados pero cuyos datos sí pueden ser de interés y, en última 
instancia, se podrían evitar investigaciones duplicadas ahorrándose un poco de 
dinero. En fin, las agencias pagan y tendrían que darse cuenta que los datos no 
son de los científicos que ejecutan los proyectos sino de ellas que para eso 
ponen el dinero sobre la mesa.

 
Aunque esta política pueda parecer exagerada, agencias y organismos, nacionales 
y supracionales se están poniendo en marcha (Fukasaku, 2007). El ejemplo más 
claro es el de los National Institutes of Health (4) que desde 2003 exigen a 
todos los proyectos financiados con más de 500.000 US$ que compartan sus datos. 
El plan de los NIH es muy sencillo: los investigadores al presentar la 
solicitud deben incluir un plan para compartir los datos generados por el 
proyecto. Además los NIH no han dejado solos a los investigadores y han creado 
diversos repositorios como el GenBank (5), Protein Cluster (6) o PubChem (7). 
Si a esta política le sumamos la reciente de que todas las publicaciones 
sufragadas por los NIH deben ponerse en acceso abierto (Martínez, 2008) podemos 
sospechar cuál puede ser el siguiente paso a unos años vista. Se puede concluir 
que si los investigadores no se animan a compartir de forma natural lo mejor es 
actuar con políticas de
 decretazo como la de los NIH, lo que pensado en frío no deja de ser un poco 
triste.

 
Una buena oportunidad
Dejando tristezas a un lado, si estas políticas se extendieran y al final los 
argumentos a favor prevalecieran sobre los argumentos en contra el tema nos 
presentaría un buen puñado de problemas técnicos bastante estimulantes; y es 
que colgar datos no es igual que colgar ppts o compartir enlaces; nos 
encontramos con información mucho más compleja con especificidades propias de 
cada especialidad, a veces sujeta a leyes de protección de datos (datos de 
pacientes), con formatos múltiples (numéricos, textuales, multimedia…; SAS, 
HTML, RAW…) que requerirían pautas de normalización y presentación para su 
depósito, que necesitarían de sistemas de recuperación más complejos y más 
amigables y que necesitarían de una conservación de los datos a largo plazo. A 
todo esto habría que sumar unas normas éticas y un contexto legal para proteger 
a los depositantes y por supuesto encontrar quien corra con los costes de las 
infraestructuras y
 formación de los científicos. En fin, toda una serie de cuestiones que no se 
resuelven en dos días ni en dos años. 

 
Está claro, por tanto, que en toda esta historia puede haber algo positivo para 
nosotros, si las grandes triunfadoras del Open Access han sido las bibliotecas 
universitarias, como las entidades encargadas de tutelar los repositorios, con 
los repositorios de datos puede o debe ocurrir lo mismo y quizás deberían ser 
los profesionales de la información los encargados de comenzar a resolver los 
problemas reseñados y abonar el terreno. El editorial de Nature (2009) no puede 
ser más explícito al respecto: la comunidad científica, para llevar a cabo el 
data sharing, necesita el equivalente digital de las bibliotecas actuales, es 
decir alguien que preserve y haga accesible todos esos datos y se apunta 
directamente a las bibliotecas universitarias, como instituciones, y al data 
managment, como rama del conocimiento, como los pilares sobre los que se debe 
apoyar el futuro del data sharing. Ante estas afirmaciones no voy a apuntar que 
es lo que se debe o no
 se debe enseñar en las facultades de documentación simplemente apuntar que 
estamos ante otra muy buena oportunidad: la especialidad denominada data 
curation.

 
Referencias
Crawford, Susan Y.; Hurd, Julie M.; Weller, Ann C. From print to electronic: 
the transformation of scientific communication. Medford: ASIS, 1996.

 
Fukasaku, Yukiko. International initiatives in data sharing: OECD, CODATA and 
GICSI. 2007. Disponible en: 
http://www.aepic.it/conf/viewabstract.php?id=269&cf=10 

 
Hrynaszkiewicz, Iain; Altman, Douglas. “Towards agreement on best practice for 
publishing raw clinical trial”. Trials. 2009, vol. 10, nº 17. Disponible en: 
http://www.trialsjournal.com/content/10/1/17

 
Martínez, Luis Javier. “Más acceso abierto”. Observatorio de Martinej. 2008. 
Disponible en: http://martinej.wordpress.com/2008/01/24/mas-acceso-abierto-nih/ 

 
Martínez-Uribe, Luis; Macdonald, Stuart. "Un nuevo cometido para los 
bibliotecarios académicos: data curation". El profesional de la información, 
2008, v. 17, n. 3, mayo-junio, pp.  273-280.

 
Nature. “Data's shameful neglect”. Nature, 2009, vol. 461, n. 7261, p. 145.
 
Nelson, Bryn. “Empty Archives”. Nature, 2009, vol. 461, nº 10, pp. 160-163.
 
Piwowar, Heather; Fridsma, Douglas B. “Examining the uses of shared data”. 
Nature Preceedings. 2007, Disponible en: 
http://precedings.nature.com/documents/425/version/3 

 
Piwowar, Heather; Day, Roger S.; Fridsma, Douglas B. “Sharing Detailed Research 
Data Is Associated with Increased Citation Rate”. Plos One. 2007, vol. 3, e308

 
Ramasamy, Adaikalavan; Mondry, Adrian; Holmes Chris C.; Altman, Douglas G. “Key 
Issues in Conducting a Meta-Analysis of Gene Expression Microarray Datasets”. 
Plos Medicine, 2008, vol. 5, nº 9, e184.

 
Rennolls, Keith. “Science demands data sharing”. BMJ. 1997, vol. 315, nº 7106. 
Disponible en: http://www.bmj.com/archive/7106/7106l7.htm

 
Roba-Stuart, Óscar. "Archivos de datos en línea para ciencias sociales". El 
profesional de la información, 2003, v. 12, n. 5, sept.-oct., pp. 400-410.

 
Notas y enlaces
1. http://www.nature.com/news/specials/datasharing/index.html. Consultado en: 
30/09/2009

2. Texto original de Galton (Biometrika, nº 1, 1901): “'I have begun to think 
that no one ought to publish biometric results, without lodging a well-arranged 
and well-bound manuscript copy of his data in some place where it should be 
accesible”

3. http://www.rcsb.org/pdb/home/home.do. Consultado en: 30/09/2009

4. http://grants.nih.gov/grants/policy/data_sharing/. Consultado en: 30/09/2009

5. http://www.ncbi.nlm.nih.gov/Genbank/index.html. Consultado en: 29/09/2009

6. http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters. Consultado en: 
29/09/2009

7. http://pubchem.ncbi.nlm.nih.gov/. Consultado en: 29/09/2009

 
Daniel Torres-Salinas pertenece a CIMA, Grupo Ec3, y a la Universidad de 
Navarra. 
Miembro del Grupo ThinkEPI
http://www.directorioexit.info/consulta.php?directorio=exit&campo=ID&texto=772

[email protected]
 
 


----------------------------------------------------
Los archivos de IWETEL  pueden ser consultados en: 
                http://listserv.rediris.es/archives/iwetel.html
----------------------------------------------------







----------------------------------------------------
Los archivos de IWETEL  pueden ser consultados en: 
                http://listserv.rediris.es/archives/iwetel.html
----------------------------------------------------

Re: [IWETEL] [Tinkepi] Compartir datos (data sharing) en ciencia: el contexto de una oportunidad

Responder a