#acl hayd@cbs.mpg.de:read,write,delete,revert,admin SevenupGroup:read,write All:read #pragma supplementation-page on = Workshop Forschungsdatenarchivierung = <> == Sinn und Zweck == Der Workshop dient dem Erfahrungsaustausch zum Thema Archivierung von Forschungsdaten. Praktiker berichten von konkreten Erfahrungen. == Wann und Wo == * Max-Planck-Institut für Kognitions- und Neurowissenschaften * Di., 26.11.2019, 10:00 bis ca. 15 Uhr == Die Vorträge == === Kulturdatenarchivierung der Thüringer Hochschulen === * Herr Detlef Jahn, [[https://www.contac-dt.de/|contac Datentechnik]] * 10:00 -11:30 * Software Defined Storage * Workflow Engine: [[https://www.danrw.de/ueber-das-da-nrw/da-nrw-ein-loesungsverbund/|DA-NRW (Digitales Archiv NRW), DNS-Core]], alles Freie Software * [[https://irods.org/|iRODS]], [[https://github.com/irods/irods_client_fuse|irodsFs]] * [[https://www.thulb.uni-jena.de/urmel.html|URMEL]] * [[attachment:Kulturdatenarchivierung_der_Thueringer-Hochschulen.pdf|die Präsentation]] === Skalierbare Object Store Software mit S3 für Disc u. Tape === * Ulrich Lechner, Entwicklungsleiter von [[https://www.graudata.com/|Grau Data]] * 12:00 - 13:30 * [[https://www.graudata.com/xtreemstore/|XtreemStore]] * Stand der Entwicklung von !XtreemStore * Migration zu !XtreemStore * DSGVO-konforme Entfernung von Daten aus einem Archiv * Schutz vor Ransomware * Erfahrungen mit [[https://www.graudata.com/OPENARCHIVE/|OPENARCHIVE]] in der Archivierung * [[attachment:Grau-Data.pdf|die Präsentation]] * Löschen von Daten aus Archiven: * [[attachment:Removing_expired_or_deleted_data.pdf|Removing expired or deleted data]] * [[attachment:Verfahren_privileged_delete_bei_WORM_Daten.pdf|Verfahren „privileged delete“ bei WORM Daten]] === Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin === * [[https://mbi-berlin.de/p/thomasmartinkruel|Thomas-Martin Kruel]], [[https://mbi-berlin.de/homepage|Max-Born-Institut]] * 13:45 - 15:15 * Definition von Metadaten mangels Standard * Definiton von Workflows für * gute wissenschaftliche Praxis * Massendaten * Daten ausgeschiedener Nutzer * Umsetzung der Anforderungen in Software mit einem [[https://www.scopeland.de/scopeland-java|Code-Genarator]] * [[https://de.wikipedia.org/wiki/RabbitMQ|RabbitMQ]] als Middleware * [[attachment:Max-Born-Institut.pdf|die Präsentation]] - die Regelungen für interne Workflows folgen noch == URLs zum Thema == In den Diskussionen wurden zahlreiche Projekte aus dem Themenfeld erwähnt. Hier die URLs dazu: * [[https://isa-tools.org|open source framework meta-data]] * [[https://fair-dom.org/platform/seek/|project management]] * [[https://csb.ethz.ch/tools/software/openbis-lims-eln.html|open source LIMS]] * [[ https://www.gesis.org/institut/abteilungen/datenarchiv-fuer-sozialwissenschaften|Datenarchiv des GESIS (Leibniz-Institut für Sozialwissenschaften)]] * [[https://ddialliance.org/|Metadatenstandard DDI des GESIS]] * [[https://opara.zih.tu-dresden.de/xmlui/|Forschungsdaten-Repositorium der TU Dresden: OpARA ]] * [[https://tu-dresden.de/zih/forschung/projekte/gerdi|GERDI - Generic Research Data Infrastructure]] * [[https://delta.io|DELTA.IO - storage layer for ACID transactions to Apache Spark]] * [[https://tika.apache.org/|Apache Tika - content analysis (metadata) toolkit]] * [[https://opara.zih.tu-dresden.de/xmlui|OPARA - Open Access Repository and Archive]] * [[https://rdmorganiser.github.io/en|RDMO - The Research Data Management Organiser]] * [[https://www.gwdg.de/storage-services/data-archiving|CDSTAR - Common Data Storage ARchitecture]] * [[https://ocfl.io/|OCFL - Oxford Common File Layout]] * [[https://osf.io/|OSF.IO - Open Science Framework]] * [[https://cos.io|COS.IO - Center for Open Science]] * [[https://www.pangaea.de/|PANGAEA Data Publisher]] eine vielgelobte Lösung == Hinweise der IT-Revision == Hier ein paar Hinweise der IT-Revision zur technischen Umsetzung, die in verschiedenen Quellen als wichtig angegeben wurden: * Eine Regelung sollte vorhanden sein, siehe unter anderem das entsprechende Kapitel in den Hinweisen und Beispielen der Revision (die Inhalte sind eine stark reduzierte Zusammenfassung aus verschiedenen Quellen) * Original- und Archivdaten sollten räumlich getrennt sein. * Eine regelmäßige und systematische Überprüfungen der Funktionsfähigkeit der Wiederherstellung sollte vorhanden sein. * Eine Überwachung/ Monitoring des Archivierungssystems sollte vorhanden sein. * Die Zugriffsberechtigungen sollten verwaltet werden. * Die Zugriffe sollten protokolliert werden. * Notfallvorsorgemaßnahmen sollten vorhanden sind. == Fazit == * Es gibt mehr Arbeitskreise als Software und Lösungen zu dem Thema. * Das Interesse daran, Forschungsdaten zu archivieren, ist sehr unterschiedlich ausgeprägt. * Es besteht ein dringender Bedarf an Software - z.B. um Daten mit Metadaten anzureichern * Auch kleinen Gruppen gelingt es nicht, sich auf einen Satz beschreibender Attribute zu einigen. * Die Not ist so groß, dass alle Diskussionen immer noch beim [[https://de.wikipedia.org/wiki/Dublin_Core|Dublin Core]] beginnen. === Notizen === [[https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion|Etherpad]] für kollaborative Notizen