#acl hayd@cbs.mpg.de:read,write,delete,revert,admin SevenupGroup:read,write All:read
#pragma supplementation-page on

= Workshop Forschungsdatenarchivierung =

<<TableOfContents(3)>>


== Sinn und Zweck ==

Der Workshop dient dem Erfahrungsaustausch zum Thema Archivierung von Forschungsdaten. Praktiker berichten von konkreten Erfahrungen.


== Wann und Wo ==

 * Max-Planck-Institut für Kognitions- und Neurowissenschaften
 * Di., 26.11.2019, 10:00 bis ca. 15 Uhr

== Die Vorträge ==

=== Kulturdatenarchivierung der Thüringer Hochschulen ===
 * Herr Detlef Jahn, [[https://www.contac-dt.de/|contac Datentechnik]]
 * 10:00 -11:30
 * Software Defined Storage
 * Workflow Engine: [[https://www.danrw.de/ueber-das-da-nrw/da-nrw-ein-loesungsverbund/|DA-NRW (Digitales Archiv NRW), DNS-Core]], alles Freie Software
 * [[https://irods.org/|iRODS]], [[https://github.com/irods/irods_client_fuse|irodsFs]]
 * [[https://www.thulb.uni-jena.de/urmel.html|URMEL]]

 * [[attachment:Kulturdatenarchivierung_der_Thueringer-Hochschulen.pdf|die Präsentation]]


=== Skalierbare Object Store Software mit S3 für Disc u. Tape ===
 * Ulrich Lechner, Entwicklungsleiter von [[https://www.graudata.com/|Grau Data]] 
 * 12:00 - 13:30
 * [[https://www.graudata.com/xtreemstore/|XtreemStore]]
 * Stand der Entwicklung von !XtreemStore
 * Migration zu !XtreemStore
 * DSGVO-konforme Entfernung von Daten aus einem Archiv
 * Schutz vor Ransomware
 * Erfahrungen mit [[https://www.graudata.com/OPENARCHIVE/|OPENARCHIVE]] in der Archivierung

 * [[attachment:Grau-Data.pdf|die Präsentation]]
 * Löschen von Daten aus Archiven:
  * [[attachment:Removing_expired_or_deleted_data.pdf|Removing expired or deleted data]]
  * [[attachment:Verfahren_privileged_delete_bei_WORM_Daten.pdf|Verfahren „privileged delete“ bei WORM Daten]]


=== Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin ===
 *  [[https://mbi-berlin.de/p/thomasmartinkruel|Thomas-Martin Kruel]], [[https://mbi-berlin.de/homepage|Max-Born-Institut]] 
 * 13:45 - 15:15
 * Definition von Metadaten mangels Standard
 * Definiton von Workflows für
  * gute wissenschaftliche Praxis
  * Massendaten
  * Daten ausgeschiedener Nutzer
 * Umsetzung der Anforderungen in Software mit einem [[https://www.scopeland.de/scopeland-java|Code-Genarator]] 
 * [[https://de.wikipedia.org/wiki/RabbitMQ|RabbitMQ]] als Middleware

 * [[attachment:Max-Born-Institut.pdf|die Präsentation]] - die Regelungen für interne Workflows folgen noch

 

== URLs zum Thema ==

In den Diskussionen wurden zahlreiche Projekte aus dem Themenfeld erwähnt. Hier die URLs dazu:



 * [[https://isa-tools.org|open source framework meta-data]]
 * [[https://fair-dom.org/platform/seek/|project management]]
 * [[https://csb.ethz.ch/tools/software/openbis-lims-eln.html|open source LIMS]]
 * [[ https://www.gesis.org/institut/abteilungen/datenarchiv-fuer-sozialwissenschaften|Datenarchiv des GESIS (Leibniz-Institut für Sozialwissenschaften)]]
 * [[https://ddialliance.org/|Metadatenstandard DDI des GESIS]]
 * [[https://opara.zih.tu-dresden.de/xmlui/|Forschungsdaten-Repositorium der TU Dresden: OpARA ]]
 * [[https://tu-dresden.de/zih/forschung/projekte/gerdi|GERDI - Generic Research Data Infrastructure]]
 * [[https://delta.io|DELTA.IO - storage layer for ACID transactions to Apache Spark]]
 * [[https://tika.apache.org/|Apache Tika - content analysis (metadata) toolkit]]
 * [[https://opara.zih.tu-dresden.de/xmlui|OPARA - Open Access Repository and Archive]]
 * [[https://rdmorganiser.github.io/en|RDMO - The Research Data Management Organiser]]
 * [[https://www.gwdg.de/storage-services/data-archiving|CDSTAR - Common Data Storage ARchitecture]]
 * [[https://ocfl.io/|OCFL - Oxford Common File Layout]]
 * [[https://osf.io/|OSF.IO - Open Science Framework]]
 * [[https://cos.io|COS.IO - Center for Open Science]]
 * [[https://www.pangaea.de/|PANGAEA Data Publisher]] eine vielgelobte Lösung



== Hinweise der IT-Revision ==

Hier ein paar Hinweise der IT-Revision zur technischen Umsetzung, die in verschiedenen Quellen als wichtig angegeben wurden:

 * Eine Regelung sollte vorhanden sein, siehe unter anderem das entsprechende Kapitel in den Hinweisen und Beispielen der Revision (die Inhalte sind eine stark reduzierte Zusammenfassung aus verschiedenen Quellen)
 * Original- und Archivdaten sollten räumlich getrennt sein.
 * Eine regelmäßige und systematische Überprüfungen der Funktionsfähigkeit der Wiederherstellung sollte vorhanden sein.
 * Eine Überwachung/ Monitoring des Archivierungssystems sollte vorhanden sein.
 * Die Zugriffsberechtigungen sollten verwaltet werden.
 * Die Zugriffe sollten protokolliert werden.
 * Notfallvorsorgemaßnahmen sollten vorhanden sind.


== Fazit ==

 * Es gibt mehr Arbeitskreise als Software und Lösungen zu dem Thema.
 * Das Interesse daran, Forschungsdaten zu archivieren, ist sehr unterschiedlich ausgeprägt.
 * Es besteht ein dringender Bedarf an Software - z.B. um Daten mit Metadaten anzureichern
 * Auch kleinen Gruppen gelingt es nicht, sich auf einen Satz beschreibender Attribute zu einigen.
 * Die Not ist so groß, dass alle Diskussionen immer noch beim [[https://de.wikipedia.org/wiki/Dublin_Core|Dublin Core]] beginnen.












=== Notizen ===

 [[https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion|Etherpad]] für kollaborative Notizen