Pubblicazione di dati

La pubblicazione di dati (anche la pubblicazione di dati ) è l’atto di rilasciare dati di ricerca in forma pubblicata per (ri) utilizzare da altri. È una pratica consistente nel preparare determinati dati o set di dati per uso pubblico in modo da renderli disponibili a tutti da utilizzare come desiderano. Questa pratica è parte integrante del movimento scientifico aperto . Esiste un ampio consenso multidisciplinare sui benefici derivanti da questa pratica. [1] [2] [3]

L’obiettivo principale è quello di elevare i dati per essere risultati di ricerca di prima classe. [4] Esistono numerose iniziative in corso nonché punti di consenso e questioni ancora in discussione. [5]

Esistono diversi modi per rendere disponibili i dati di ricerca, tra cui:

  • pubblicare i dati come materiale supplementare associato a un articolo di ricerca , in genere con i file di dati ospitati dall’editore dell’articolo
  • hosting di dati su un sito web pubblicamente disponibile, con file disponibili per il download
  • ospitare i dati in un repository che è stato sviluppato per supportare la pubblicazione dei dati, ad esempio figshare , Dryad , Dataverse , Zenodo . Esiste un gran numero di archivi di dati generali e speciali (ad esempio per argomento di ricerca). [6]
  • pubblicare un documento informativo sul set di dati, che può essere pubblicato come prestampa, in un giornale o in un giornale di dati dedicato al supporto di documenti di dati. I dati possono essere ospitati dal giornale o ospitati separatamente in un repository di dati.

La pubblicazione dei dati consente ai ricercatori di mettere i propri dati a disposizione degli altri e consente di citare i set di dati in modo simile ad altri tipi di pubblicazioni di ricerca (come articoli o libri), consentendo ai produttori di set di dati di ottenere credito accademico per il proprio lavoro.

Le motivazioni per la pubblicazione dei dati possono variare dal desiderio di rendere la ricerca più accessibile, per consentire la citabilità di set di dati, o fondi di ricerca o di editori che richiedono la pubblicazione di dati aperti.

Metodi per la pubblicazione dei dati

File di dati come materiale supplementare

Un gran numero di riviste ed editori supportano il materiale supplementare allegato agli articoli di ricerca, compresi i set di dati. Sebbene storicamente tale materiale possa essere stato distribuito solo su richiesta o su microformaalle biblioteche, oggi i periodici di solito ospitano tale materiale online. Il materiale supplementare è disponibile per gli abbonati al giornale o, se l’articolo o il diario è aperto, per tutti.

Repository di dati

Ci sono un gran numero di archivi di dati, sia su argomenti generali che specializzati. Molti repository sono repository disciplinari , focalizzati su una particolare disciplina di ricerca. I repositori possono essere liberi per i ricercatori di caricare i propri dati o possono addebitare una tariffa una tantum o in corso per l’hosting dei dati. Questi repository offrono un’interfaccia Web accessibile pubblicamente per la ricerca e la navigazione di set di dati ospitati e possono includere funzionalità aggiuntive come un identificatore di oggetti digitali , per la citazione permanente dei dati e il collegamento a documenti e codici pubblicati associati.

Documenti di dati

I documenti di dati sono “pubblicazioni accademiche di un documento di metadati ricercabili che descrivono un particolare set di dati accessibile on-line, o un gruppo di set di dati, pubblicati secondo le pratiche accademiche standard”. [7] Il loro obiettivo finale era fornire “informazioni su cosa, dove, perché, come e chi dei dati”. [4] L’intento di un documento di dati è di offrire informazioni descrittive sui relativi set di dati che si concentrano sulla raccolta dei dati, sulle caratteristiche distintive, sull’accesso e sul riutilizzo potenziale piuttosto che sull’elaborazione e l’analisi dei dati. [8] Poiché i documenti di dati sono considerati pubblicazioni accademiche non diverse dagli altri tipi di documenti che consentono agli scienziati di condividere i dati per ricevere credito in valuta riconoscibile all’interno del sistema accademico, “facendo in modo che la condivisione dei dati conti”.[9] Ciò fornisce non solo un ulteriore incentivo alla condivisione dei dati, ma anche attraverso ilprocesso di peer review , aumenta la qualità dei metadati e quindi la riusabilità dei dati condivisi.

Pertanto i documenti informativi rappresentano l’ approccio di comunicazione accademica alla condivisione dei dati .

Nonostante le loro potenzialità, i documenti informatici non rappresentano la soluzione definitiva e completa per tutti i problemi di condivisione e riutilizzo dei dati e, in alcuni casi, sono considerati tali da indurre false aspettative nella comunità di ricerca. [10]

Data journal

I documenti informatici sono supportati da una vasta gamma di riviste , alcune delle quali sono “pure”, ovvero sono dedicate alla pubblicazione di soli documenti di dati, mentre altre – la maggior parte – sono “miste”, ovvero pubblicano un numero di tipi di articoli inclusi i dati carte.

È disponibile un’indagine completa su riviste di dati [11]. Un elenco non esaustivo di riviste di dati è stato compilato dal personale dell’Università di Edimburgo. [12]

Esempi di diari di dati “puri” sono: Dati sulla scienza del sistema terrestre , dati scientifici , diario di dati archeologici aperti e dati sanitari aperti .

Esempi di riviste “miste” che pubblicano documenti di dati sono: SpringerPlus , PLOS ONE , Biodiversity Data Journal , F1000Research e GigaScience .

Citazione dei dati

La citazione dei dati è la fornitura di riferimenti precisi, coerenti e standardizzati per i set di dati proprio come le citazioni bibliografiche sono fornite per altre fonti pubblicate come articoli di ricerca o monografie . In genere, l’ approccio DOI (Digital Object Identifier) ben consolidato viene utilizzato con DOI che portano gli utenti a un sito Web che contiene i metadati sul set di dati e il set di dati stesso. [13] [14]

Diverse organizzazioni sono state istituite con l’obiettivo di guidare l’agenda delle citazioni dei dati. Questi includono i seguenti: [15]

  • Gruppo di attività CODICE Data Citation Standards and Practices
  • Data Preservation Alliance for the Social Sciences (Data-PASS)
  • DataCite
  • Data Citation Synthesis Group di FORCE11
  • Data Citation Working Group della Research Data Alliance

La citazione dei dati è un argomento emergente nell’informatica ed è stato definito come un problema computazionale. [16] In effetti, la citazione dei dati pone sfide significative agli informatici e i problemi principali da affrontare sono relativi a: [17]

  • l’uso di modelli e formati di dati eterogenei – ad es. database relazionali, valori separati da virgola (CSV), XML ( eXtensible Markup Language ), [18] [19] Resource Description Framework (RDF); [20]
  • la caducità dei dati;
  • la necessità di citare dati a diversi livelli di grossolanità – cioè citazioni profonde; [21]
  • la necessità di generare automaticamente citazioni di dati con granularità variabile.

Vedi anche

  • Archiviazione dati
  • Registro di archivi di dati di ricerca
  • Repository disciplinare

Riferimenti

  1. Salta su^ Costello MJ (2009). “Motivare la pubblicazione online di dati” . BioScience . 59 (5): 418-427. doi :10.1525 / bio.2009.59.5.9 .
  2. Salta su^ Smith VS (2009). “Pubblicazione dei dati: verso un database di tutto” . Note di ricerca BMC . 2 (113). doi : 10.1186 / 1756-0500-2-113 . PMC  2702265 . PMID  19552813 .
  3. Salta su^ Lawrence, B; Jones, C .; Matthews, B .; Pepler, S .; Callaghan, S. (2011). “Citazione e revisione tra pari di dati: spostamento verso la pubblicazione di dati formali” . International Journal of Digital Curation . 6 (2): 4-37. doi : 10.2218 / ijdc.v6i2.205 .
  4. ^ Salta fino a:b Callaghan, S., Donegan, S., Pepler, S., Thorley, M., Cunningham, N., Kirsch, P., Ault, L., Bell, P., Bowie, R ., Leadbetter, A., Lowry, R., Moncoiffé, G., Harrison, K., Smith-Haddon, B., Weatherby, A., & Wright, D. (2012). “Rendere i dati una produzione scientifica di prim’ordine: citazione e pubblicazione dei dati da parte dei centri dati ambientali NERC” . International Journal of Digital Curation . 7 (1): 107-113. doi : 10.2218 / ijdc.v7i1.218 .
  5. Salta^ Kratz J, Strasser C (2014). “Consenso e controversie sulla pubblicazione dei dati” . F1000Ricerca . 3 (94). doi : 10.12688 / f1000research.4518 .
  6. Salta su^ Assante, M .; Candela, L .; Castelli, D .; Tani, A. (2016). “I repertori di dati scientifici fanno fronte alla pubblicazione di dati di ricerca?” . Data Science Journal . 15 . doi : 10.5334 / dsj-2016-006 .
  7. Salta in alto^ Chavan, V. & Penev, L. (2011). “Il documento di dati: un meccanismo per incentivare la pubblicazione di dati nella scienza della biodiversità” . Bioinformatica BMC . 12 (15): S2. doi : 10.1186 / 1471-2105-12-S15-S2 . PMC  3287445  . PMID  22373175 .
  8. Salta in alto^ Newman Paul; Corke Peter (2009). “Data papers – pubblicazione peer reviewed di set di dati di alta qualità” . International Journal of Robotics Research . 28 (5): 587-587. doi : 10.1177 / 0278364909104283 .
  9. Salta su^ Gorgolewski KJ, Margulies DS, Milham MP (2013). “Il conteggio della condivisione dei dati conta: una soluzione basata sulla pubblicazione” . Frontiere in Neuroscienze . 7 . doi : 10.3389 / fnins.2013.00009.
  10. Salta su^ Parsons, MA; Fox, PA (2013). “La pubblicazione dei dati è la metafora giusta?” . Data Science Journal . 12 : WDS31-WDS46.
  11. Salta^ Candela, L., Castelli, D., Manghi, P. e Tani, A. (2015). “Data Journals: A Survey” . Rivista dell’Associazione per la scienza e la tecnologia dell’informazione . 66 (1): 1747-1762. doi : 10.1002 / asi.23358 .
  12. Salta su^https://www.wiki.ed.ac.uk/display/datashare/Sources+of+dataset+peer+review
  13. Salta su^ Servizio di dati nazionale australiano: Data Citation Awareness(Accessed 20 marzo 2012)
  14. Salta su^ Ball, A., Duke, M. (2011). ‘Citazione dati e collegamenti’. DCC Briefing Papers. Edimburgo: Digital Curation Center. Disponibile online:http://www.dcc.ac.uk/resources/briefing-papers/
  15. Salta su^ Workshop sui Principi di Data Citation, 16 maggio – 17 maggio 2011, IQSS presso l’Università di Harvard: Links(accesso 20 marzo 2012)
  16. Salta su^ Buneman, P., Davidson, S. e Frey, J. (2016). ‘Perché la citazione dei dati è un problema computazionale’. Comunicazioni dell’ACM, per la presentazione a settembre 2016. Disponibile online:http://frew.eri.ucsb.edu/private/preprints/bdf-cacm-data-citation.pdf
  17. Salta su^ Silvello, G. e Ferro, N. (2016). “Arriva la citazione dei dati. Introduzione al numero speciale sulla citazione dei dati ‘. Bollettino del comitato tecnico IEEE sulle biblioteche digitali, Volume 12 Numero 1, maggio 2016. Disponibile online:http://www.ieee-tcdl.org/Bulletin/current/papers/intro.pdf
  18. Salta su^ Buneman, P. e Silvello, G. (2010). “Un sistema di citazione basato su regole per set di dati strutturati ed in evoluzione”. Bollettino IEEE del Comitato tecnico per l’ingegneria dei dati, vol. 3, n. 3. IEEE Computer Society, pp. 33-41, settembre 2010. Disponibile online:http://sites.computer.org/debull/A10sept/buneman.pdf
  19. Salta^ Silvello, G. (2016). “Learning to Cite Framework: come costruire automaticamente citazioni per dati gerarchici”. Rivista dell’Associazione per la Scienza dell’Informazione e la Tecnologia (JASIST), per apparire, 2016. Pre-stampa disponibile online:http://www.dei.unipd.it/~silvello/papers/2016-DataCitation-JASIST-Silvello.pdf
  20. Salta su^ Silvello, G. (2015). “Una metodologia per la citazione di sottoserie di dati aperti collegati”. D-Lib Magazine 21 (1/2), 2015. Disponibile online:http://www.dlib.org/dlib/january15/silvello/01silvello.html
  21. Salta su^ Buneman, P. (2006). “Come citare database curati e come renderli accessibili”. In Proc. della 18a Conferenza internazionale sulla gestione dei database scientifici e statistici, SSDBM 2006, pagine 195-203, 2006.