*Compartir datos (data sharing) en ciencia: el contexto de una oportunidad*

Por Daniel Torres-Salinas

* *

*Introducción*

Recientemente la revista Nature ha dedicado un número especial (1) a un tema
relevante relacionado con la comunicación científica, el *data sharing*; es
decir la acción de compartir con otros colegas los ficheros de datos, lo que
solemos llamar *raw data*, generados durante el curso de una investigación.
Idealmente, por ejemplo, si trabajas en medicina consistiría en poner en
línea para descarga todos los datos, convenientemente organizados, de los
pacientes que han participado en un ensayo clínico o, si trabajas en
bibliometría, los ficheros .txt, .xls o .mdb con las publicaciones que has
analizado. En fin, un concepto bastante fácil de entender y que aunque pueda
parecer muy en la línea de la ciencia 2.0 ya Galton en 1901 afirmó que no se
debería dejar publicar estudios biométricos si previamente los datos no se
depositaban en algún lugar para su consulta (2) (*Hrynaszkiewicz*, 2009).
Asimismo, en lo que a repositorios se refiere, uno de los más veteranos, el
*Protein Data Bank* (3), se inició en 1971 y una de las primeras revista en
exigir los datos como condición para la publicación fue el *Journal of
Biological Chemistry* en 1983 (*Crawford* et al., 1996). Por tanto estamos
ante un viejo tema cuyo debate parece reabrirse periódicamente y en el que
tal vez los documentalistas tengamos algo que decir; por ello, en esta nota,
expondremos brevemente algunas de las cuestiones que rodean a esta práctica
científica.



*A favor, en contra*

Según *Nelson* (2009) la publicación en acceso abierto de los datos es
percibida por la mayor parte de los investigadores como un ideal científico
y algo beneficioso; sin embargo no deja de ser una corriente muy
minoritaria. En la literatura se ha dado buena cuenta de sus bondades ya que
compartir datos contribuye a reproducir, replicar y verificar resultados
obtenidos por otros (*Renolls*, 1997), favorece la posibilidad de
reutilización de esos datos para otro tipo de análisis* *diferente al
original (*Piwowar* y *Fridsman*, 2007), permite combinar diferentes
archivos para realizar metaánalisis (*Ramasamy* et al., 2008) y es un arma
eficaz en la lucha contra el fraude. Y si esto no nos convence, además,
produce una aceleración en la citación e incrementos en el número de citas
del 70% (*Piwowar* et. al, 2008). Sin embargo pese a la percepción positiva
y al puñado de argumentos, los científicos no se animan y el investigador
prefiere mantener sus ficheros en su disco duro hasta que un día éste le dé
*error fatal* y desaparezcan para siempre.



Claro, si uno analiza la cuestión, no les falta razón ya que por ahora son
muchas las dudas en torno al tema. La cuestión básica “*¿dónde deposito mis
datos?*” aún no está resuelta ya que apenas existen repositorios ni
infraestructuras y además, en el caso de que se crearan, las incertidumbres
sobre el destino de los datos son enormes; la escasa protección en caso de
apropiaciones indebidas, la falta de reconocimiento a la hora de ser citado
o la posibilidad de que otros hagan papers a costa de nuestro esfuerzo, son
cuestiones a resolver. Pero principalmente no olvidemos que los datos son el
motor de las publicaciones y éstas para el científico son un bien
intercambiable por dinero en forma de tramos o de financiación y nadie en su
sano juicio va a poner a disposición de desconocidos su pequeño capital. Por
todo esto el data sharing como práctica generalizada implica no sólo un
cambio cultural sino también unas reglas de juego bien establecidas; y
aunque puede generar beneficios colectivos también puede provocar perjuicios
individuales y al final, estos últimos, decantan la balanza.



*Compartir datos por decretazo*

Sin embargo ya hay algunos que se están tomando el tema en serio y si no
quieren compartir voluntariamente se les obliga. Esta posición se entiende
desde el punto de vista de una administración pública ya que ellas financian
la investigación y el output de sus proyectos no debe ser sólo un conjunto
de resultados y conclusiones. Ellas también tendrían que reclamar los datos
generados que deberían poder ser utilizados por otros científicos del mismo
sistema público. Asimismo se reciclarían todos esos proyectos que no
alcanzaron los resultados esperados pero cuyos datos sí pueden ser de
interés y, en última instancia, se podrían evitar investigaciones duplicadas
ahorrándose un poco de dinero. En fin, las agencias pagan y tendrían que
darse cuenta que los datos no son de los científicos que ejecutan los
proyectos sino de ellas que para eso ponen el dinero sobre la mesa.



Aunque esta política pueda parecer exagerada, agencias y organismos,
nacionales y supracionales se están poniendo en marcha (*Fukasaku*, 2007).
El ejemplo más claro es el de los National Institutes of Health (4) que
desde 2003 exigen a todos los proyectos financiados con más de 500.000 US$
que compartan sus datos. El plan de los NIH es muy sencillo: los
investigadores al presentar la solicitud deben incluir un plan para
compartir los datos generados por el proyecto. Además los NIH no han dejado
solos a los investigadores y han creado diversos repositorios como el *GenBank
*(5), *Protein Cluster *(6) o *PubChem *(7). Si a esta política le sumamos
la reciente de que todas las publicaciones sufragadas por los NIH deben
ponerse en acceso abierto (*Martínez*, 2008) podemos sospechar cuál puede
ser el siguiente paso a unos años vista. Se puede concluir que si los
investigadores no se animan a compartir de forma natural lo mejor es actuar
con políticas de decretazo como la de los NIH, lo que pensado en frío no
deja de ser un poco triste.



*Una buena oportunidad*

Dejando tristezas a un lado, si estas políticas se extendieran y al final
los argumentos a favor prevalecieran sobre los argumentos en contra el tema
nos presentaría un buen puñado de problemas técnicos bastante estimulantes;
y es que colgar datos no es igual que colgar ppts o compartir enlaces; nos
encontramos con información mucho más compleja con especificidades propias
de cada especialidad, a veces sujeta a leyes de protección de datos (datos
de pacientes), con formatos múltiples (numéricos, textuales, multimedia…; SAS,
HTML, RAW…) que requerirían pautas de normalización y presentación para su
depósito, que necesitarían de sistemas de recuperación más complejos y más
amigables y que necesitarían de una conservación de los datos a largo plazo.
A todo esto habría que sumar unas normas éticas y un contexto legal para
proteger a los depositantes y por supuesto encontrar quien corra con los
costes de las infraestructuras y formación de los científicos. En fin, toda
una serie de cuestiones que no se resuelven en dos días ni en dos años.



Está claro, por tanto, que en toda esta historia puede haber algo positivo
para nosotros, si las grandes triunfadoras del *Open Access* han sido las
bibliotecas universitarias, como las entidades encargadas de tutelar los
repositorios, con los repositorios de datos puede o debe ocurrir lo mismo y
quizás deberían ser los profesionales de la información los encargados de
comenzar a resolver los problemas reseñados y abonar el terreno. El
editorial de Nature (2009) no puede ser más explícito al respecto: la
comunidad científica, para llevar a cabo el data sharing, necesita el
equivalente digital de las bibliotecas actuales, es decir alguien que
preserve y haga accesible todos esos datos y se apunta directamente a las
bibliotecas universitarias, como instituciones, y al data managment, como
rama del conocimiento, como los pilares sobre los que se debe apoyar el
futuro del data sharing. Ante estas afirmaciones no voy a apuntar que es lo
que se debe o no se debe enseñar en las facultades de documentación
simplemente apuntar que estamos ante otra muy buena oportunidad: la
especialidad denominada *data curation*.



*Referencias*

*Crawford, Susan Y.*;* Hurd, Julie M.*;* Weller, Ann C.* From print to
electronic: the transformation of scientific communication. Medford: ASIS,
1996.



*Fukasaku, Yukiko*. International initiatives in data sharing: OECD, CODATA
and GICSI. 2007. Disponible en: *http://www.aepic.it/conf/viewabstract.p**
hp?id=269&cf=10*

* *

*Hrynaszkiewicz,* *Iain*; *Altman,* *Douglas*. “Towards agreement on best
practice for publishing raw clinical trial”. *Trials*. 2009, vol. 10, nº 17.
Disponible en: *http://www.trialsjournal.com/content/10/1/17*



*Martínez, Luis Javier. *“Más acceso abierto”. *Observatorio de Martinej*.
2008. Disponible en:* **
http://martinej.wordpress.com/2008/01/24/mas-acceso-abierto-nih/*

* *

*Martínez-Uribe, Luis*; *Macdonald, Stuart*. "Un nuevo cometido para los
bibliotecarios académicos: data curation". *El profesional de la información
*, 2008, v. 17, n. 3, mayo-junio, pp.  273-280.

* *

Nature. “Data's shameful neglect”. *Nature*, 2009, vol. 461, n. 7261, p.
145.

* *

*Nelson, Bryn*. “Empty Archives”. *Nature*, 2009, vol. 461, nº 10, pp.
160-163.



*Piwowar, Heather*;* Fridsma, Douglas B.* “Examining the uses of shared
data”. *Nature Preceedings*. 2007, Disponible en:
http://precedings.nature.com/documents/425/version/3



*Piwowar, Heather*;* Day, Roger S.*;* Fridsma, Douglas B.* “Sharing Detailed
Research Data Is Associated with Increased Citation Rate”. *Plos One*. 2007,
vol. 3, e308



*Ramasamy, Adaikalavan*;* Mondry, Adrian*;* Holmes Chris C.*;* Altman,
Douglas G*. “Key Issues in Conducting a Meta-Analysis of Gene Expression
Microarray Datasets”. *Plos Medicine*, 2008, vol. 5, nº 9, e184.



*Rennolls, Keith. *“Science demands data sharing”. *BMJ*. 1997, vol. 315, nº
7106. Disponible en: *http://www.bmj.com/archive/7106/7106l7.htm*



*Roba-Stuart, Óscar*. "Archivos de datos en línea para ciencias sociales". *El
profesional de la información*, 2003, v. 12, n. 5, sept.-oct., pp. 400-410.



*Notas y enlaces*

1. http://www.nature.com/news/specials/datasharing/index.html. Consultado
en: 30/09/2009

2. Texto original de Galton (Biometrika, nº 1, 1901): “*'I have begun to
think that no one ought to publish biometric results, without lodging a
well-arranged and well-bound manuscript copy of his data in some place where
it should be accesible*”

3. http://www.rcsb.org/pdb/home/home.do. Consultado en: 30/09/2009

4. http://grants.nih.gov/grants/policy/data_sharing/. Consultado en:
30/09/2009

5. http://www.ncbi.nlm.nih.gov/Genbank/index.html. Consultado en: 29/09/2009

6. http://www.ncbi.nlm.nih.gov/sites/entrez?db=proteinclusters. Consultado
en: 29/09/2009

7. http://pubchem.ncbi.nlm.nih.gov/. Consultado en: 29/09/2009



*Daniel Torres-Salinas pertenece a CIMA, Grupo Ec3, y a la Universidad de
Navarra. *

*Miembro del Grupo ThinkEPI*

*
http://www.directorioexit.info/consulta.php?directorio=exit&campo=ID&texto=772
*

*[email protected]*


----------------------------------------------------
Los archivos de IWETEL  pueden ser consultados en: 
                http://listserv.rediris.es/archives/iwetel.html
----------------------------------------------------

Responder a