*Compartir datos (data sharing) en ciencia: el contexto de una oportunidad*
Por Daniel Torres-Salinas * * *Introducción* Recientemente la revista Nature ha dedicado un número especial (1) a un tema relevante relacionado con la comunicación científica, el *data sharing*; es decir la acción de compartir con otros colegas los ficheros de datos, lo que solemos llamar *raw data*, generados durante el curso de una investigación. Idealmente, por ejemplo, si trabajas en medicina consistiría en poner en línea para descarga todos los datos, convenientemente organizados, de los pacientes que han participado en un ensayo clínico o, si trabajas en bibliometría, los ficheros .txt, .xls o .mdb con las publicaciones que has analizado. En fin, un concepto bastante fácil de entender y que aunque pueda parecer muy en la línea de la ciencia 2.0 ya Galton en 1901 afirmó que no se debería dejar publicar estudios biométricos si previamente los datos no se depositaban en algún lugar para su consulta (2) (*Hrynaszkiewicz*, 2009). Asimismo, en lo que a repositorios se refiere, uno de los más veteranos, el *Protein Data Bank* (3), se inició en 1971 y una de las primeras revista en exigir los datos como condición para la publicación fue el *Journal of Biological Chemistry* en 1983 (*Crawford* et al., 1996). Por tanto estamos ante un viejo tema cuyo debate parece reabrirse periódicamente y en el que tal vez los documentalistas tengamos algo que decir; por ello, en esta nota, expondremos brevemente algunas de las cuestiones que rodean a esta práctica científica. *A favor, en contra* Según *Nelson* (2009) la publicación en acceso abierto de los datos es percibida por la mayor parte de los investigadores como un ideal científico y algo beneficioso; sin embargo no deja de ser una corriente muy minoritaria. En la literatura se ha dado buena cuenta de sus bondades ya que compartir datos contribuye a reproducir, replicar y verificar resultados obtenidos por otros (*Renolls*, 1997), favorece la posibilidad de reutilización de esos datos para otro tipo de análisis* *diferente al original (*Piwowar* y *Fridsman*, 2007), permite combinar diferentes archivos para realizar metaánalisis (*Ramasamy* et al., 2008) y es un arma eficaz en la lucha contra el fraude. Y si esto no nos convence, además, produce una aceleración en la citación e incrementos en el número de citas del 70% (*Piwowar* et. al, 2008). Sin embargo pese a la percepción positiva y al puñado de argumentos, los científicos no se animan y el investigador prefiere mantener sus ficheros en su disco duro hasta que un día éste le dé *error fatal* y desaparezcan para siempre. Claro, si uno analiza la cuestión, no les falta razón ya que por ahora son muchas las dudas en torno al tema. La cuestión básica “*¿dónde deposito mis datos?*” aún no está resuelta ya que apenas existen repositorios ni infraestructuras y además, en el caso de que se crearan, las incertidumbres sobre el destino de los datos son enormes; la escasa protección en caso de apropiaciones indebidas, la falta de reconocimiento a la hora de ser citado o la posibilidad de que otros hagan papers a costa de nuestro esfuerzo, son cuestiones a resolver. Pero principalmente no olvidemos que los datos son el motor de las publicaciones y éstas para el científico son un bien intercambiable por dinero en forma de tramos o de financiación y nadie en su sano juicio va a poner a disposición de desconocidos su pequeño capital. Por todo esto el data sharing como práctica generalizada implica no sólo un cambio cultural sino también unas reglas de juego bien establecidas; y aunque puede generar beneficios colectivos también puede provocar perjuicios individuales y al final, estos últimos, decantan la balanza. *Compartir datos por decretazo* Sin embargo ya hay algunos que se están tomando el tema en serio y si no quieren compartir voluntariamente se les obliga. Esta posición se entiende desde el punto de vista de una administración pública ya que ellas financian la investigación y el output de sus proyectos no debe ser sólo un conjunto de resultados y conclusiones. Ellas también tendrían que reclamar los datos generados que deberían poder ser utilizados por otros científicos del mismo sistema público. Asimismo se reciclarían todos esos proyectos que no alcanzaron los resultados esperados pero cuyos datos sí pueden ser de interés y, en última instancia, se podrían evitar investigaciones duplicadas ahorrándose un poco de dinero. En fin, las agencias pagan y tendrían que darse cuenta que los datos no son de los científicos que ejecutan los proyectos sino de ellas que para eso ponen el dinero sobre la mesa. Aunque esta política pueda parecer exagerada, agencias y organismos, nacionales y supracionales se están poniendo en marcha (*Fukasaku*, 2007). El ejemplo más claro es el de los National Institutes of Health (4) que desde 2003 exigen a todos los proyectos financiados con más de 500.000 US$ que compartan sus datos. El plan de los NIH es muy sencillo: los investigadores al presentar la solicitud deben incluir un plan para compartir los datos generados por el proyecto. Además los NIH no han dejado solos a los investigadores y han creado diversos repositorios como el *GenBank *(5), *Protein Cluster *(6) o *PubChem *(7). Si a esta política le sumamos la reciente de que todas las publicaciones sufragadas por los NIH deben ponerse en acceso abierto (*Martínez*, 2008) podemos sospechar cuál puede ser el siguiente paso a unos años vista. Se puede concluir que si los investigadores no se animan a compartir de forma natural lo mejor es actuar con políticas de decretazo como la de los NIH, lo que pensado en frío no deja de ser un poco triste. *Una buena oportunidad* Dejando tristezas a un lado, si estas políticas se extendieran y al final los argumentos a favor prevalecieran sobre los argumentos en contra el tema nos presentaría un buen puñado de problemas técnicos bastante estimulantes; y es que colgar datos no es igual que colgar ppts o compartir enlaces; nos encontramos con información mucho más compleja con especificidades propias de cada especialidad, a veces sujeta a leyes de protección de datos (datos de pacientes), con formatos múltiples (numéricos, textuales, multimedia…; SAS, HTML, RAW…) que requerirían pautas de normalización y presentación para su depósito, que necesitarían de sistemas de recuperación más complejos y más amigables y que necesitarían de una conservación de los datos a largo plazo. A todo esto habría que sumar unas normas éticas y un contexto legal para proteger a los depositantes y por supuesto encontrar quien corra con los costes de las infraestructuras y formación de los científicos. En fin, toda una serie de cuestiones que no se resuelven en dos días ni en dos años. Está claro, por tanto, que en toda esta historia puede haber algo positivo para nosotros, si las grandes triunfadoras del *Open Access* han sido las bibliotecas universitarias, como las entidades encargadas de tutelar los repositorios, con los repositorios de datos puede o debe ocurrir lo mismo y quizás deberían ser los profesionales de la información los encargados de comenzar a resolver los problemas reseñados y abonar el terreno. El editorial de Nature (2009) no puede ser más explícito al respecto: la comunidad científica, para llevar a cabo el data sharing, necesita el equivalente digital de las bibliotecas actuales, es decir alguien que preserve y haga accesible todos esos datos y se apunta directamente a las bibliotecas universitarias, como instituciones, y al data managment, como rama del conocimiento, como los pilares sobre los que se debe apoyar el futuro del data sharing. Ante estas afirmaciones no voy a apuntar que es lo que se debe o no se debe enseñar en las facultades de documentación simplemente apuntar que estamos ante otra muy buena oportunidad: la especialidad denominada *data curation*. *Referencias* *Crawford, Susan Y.*;* Hurd, Julie M.*;* Weller, Ann C.* From print to electronic: the transformation of scientific communication. Medford: ASIS, 1996. *Fukasaku, Yukiko*. International initiatives in data sharing: OECD, CODATA and GICSI. 2007. Disponible en: *http://www.aepic.it/conf/viewabstract.p** hp?id=269&cf=10* * * *Hrynaszkiewicz,* *Iain*; *Altman,* *Douglas*. “Towards agreement on best practice for publishing raw clinical trial”. *Trials*. 2009, vol. 10, nº 17. Disponible en: *http://www.trialsjournal.com/content/10/1/17* *Martínez, Luis Javier. *“Más acceso abierto”. *Observatorio de Martinej*. 2008. Disponible en:* ** http://martinej.wordpress.com/2008/01/24/mas-acceso-abierto-nih/* * * *Martínez-Uribe, Luis*; *Macdonald, Stuart*. "Un nuevo cometido para los bibliotecarios académicos: data curation". *El profesional de la información *, 2008, v. 17, n. 3, mayo-junio, pp. 273-280. * * Nature. “Data's shameful neglect”. *Nature*, 2009, vol. 461, n. 7261, p. 145. * * *Nelson, Bryn*. “Empty Archives”. *Nature*, 2009, vol. 461, nº 10, pp. 160-163. *Piwowar, Heather*;* Fridsma, Douglas B.* “Examining the uses of shared data”. *Nature Preceedings*. 2007, Disponible en: http://precedings.nature.com/documents/425/version/3 *Piwowar, Heather*;* Day, Roger S.*;* Fridsma, Douglas B.* “Sharing Detailed Research Data Is Associated with Increased Citation Rate”. *Plos One*. 2007, vol. 3, e308 *Ramasamy, Adaikalavan*;* Mondry, Adrian*;* Holmes Chris C.*;* Altman, Douglas G*. “Key Issues in Conducting a Meta-Analysis of Gene Expression Microarray Datasets”. *Plos Medicine*, 2008, vol. 5, nº 9, e184. *Rennolls, Keith. *“Science demands data sharing”. *BMJ*. 1997, vol. 315, nº 7106. Disponible en: *http://www.bmj.com/archive/7106/7106l7.htm* *Roba-Stuart, Óscar*. "Archivos de datos en línea para ciencias sociales". *El profesional de la información*, 2003, v. 12, n. 5, sept.-oct., pp. 400-410. *Notas y enlaces* 1. http://www.nature.com/news/specials/datasharing/index.html. Consultado en: 30/09/2009 2. Texto original de Galton (Biometrika, nº 1, 1901): “*'I have begun to think that no one ought to publish biometric results, without lodging a well-arranged and well-bound manuscript copy of his data in some place where it should be accesible*” 3. http://www.rcsb.org/pdb/home/home.do. Consultado en: 30/09/2009 4. http://grants.nih.gov/grants/policy/data_sharing/. Consultado en: 30/09/2009 5. http://www.ncbi.nlm.nih.gov/Genbank/index.html. Consultado en: 29/09/2009 6. http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters. Consultado en: 29/09/2009 7. http://pubchem.ncbi.nlm.nih.gov/. Consultado en: 29/09/2009 *Daniel Torres-Salinas pertenece a CIMA, Grupo Ec3, y a la Universidad de Navarra. * *Miembro del Grupo ThinkEPI* * http://www.directorioexit.info/consulta.php?directorio=exit&campo=ID&texto=772 * *[email protected]* ---------------------------------------------------- Los archivos de IWETEL pueden ser consultados en: http://listserv.rediris.es/archives/iwetel.html ----------------------------------------------------
