Unterschiede zwischen den Revisionen 2 und 20 (über 18 Versionen hinweg)

Workshop Forschungsdatenarchivierung

Inhaltsverzeichnis

Workshop Forschungsdatenarchivierung

Sinn und Zweck

Der Workshop dient dem Erfahrungsaustausch zum Thema Archivierung von Forschungsdaten. Praktiker berichten von konkreten Erfahrungen.

Wann und Wo

Max-Planck-Institut für Kognitions- und Neurowissenschaften
Di., 26.11.2019, 10:00 bis ca. 15 Uhr

Die Vorträge

Kulturdatenarchivierung der Thüringer Hochschulen

Herr Detlef Jahn, contac Datentechnik
10:00 -11:30
Software Defined Storage
Workflow Engine: DA-NRW (Digitales Archiv NRW), DNS-Core, alles Freie Software
iRODS, irodsFs
URMEL
die Präsentation

Skalierbare Object Store Software mit S3 für Disc u. Tape

Ulrich Lechner, Entwicklungsleiter von Grau Data
12:00 - 13:30
XtreemStore
Stand der Entwicklung von XtreemStore
Migration zu XtreemStore
DSGVO-konforme Entfernung von Daten aus einem Archiv
Schutz vor Ransomware
Erfahrungen mit OPENARCHIVE in der Archivierung
die Präsentation
Löschen von Daten aus Archiven:
- Removing expired or deleted data
- Verfahren „privileged delete“ bei WORM Daten

Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin

Thomas-Martin Kruel, Max-Born-Institut
13:45 - 15:15
Definition von Metadaten mangels Standard
Definiton von Workflows für
- gute wissenschaftliche Praxis
- Massendaten
- Daten ausgeschiedener Nutzer
Umsetzung der Anforderungen in Software mit einem Code-Genarator
RabbitMQ als Middleware
Präsentation fehlt noch

URLs zum Thema

In den Diskussionen wurden zahlreiche Projekte aus dem Themenfeld erwähnt. Hier die URLs dazu:

Hinweise der IT-Revision

Hier ein paar Hinweise der IT-Revision zur technischen Umsetzung, die in verschiedenen Quellen als wichtig angegeben wurden:

Eine Regelung sollte vorhanden sein, siehe unter anderem das entsprechende Kapitel in den Hinweisen und Beispielen der Revision (die Inhalte sind eine stark reduzierte Zusammenfassung aus verschiedenen Quellen)
Original- und Archivdaten sollten räumlich getrennt sein.
Eine regelmäßige und systematische Überprüfungen der Funktionsfähigkeit der Wiederherstellung sollte vorhanden sein.
Eine Überwachung/ Monitoring des Archivierungssystems sollte vorhanden sein.
Die Zugriffsberechtigungen sollten verwaltet werden.
Die Zugriffe sollten protokolliert werden.
Notfallvorsorgemaßnahmen sollten vorhanden sind.

Fazit

Es gibt mehr Arbeitskreise als Software und Lösungen zu dem Thema.
Das Interesse daran, Forschungsdaten zu archivieren, ist sehr unterschiedlich ausgeprägt.
Es besteht ein dringender Bedarf an Software - z.B. um Daten mit Metadaten anzureichern
Auch kleinen Gruppen gelingt es nicht, sich auf einen Satz beschreibender Attribute zu einigen.
Die Not ist so groß, dass alle Diskussionen immer noch beim Dublin Core beginnen.

Notizen

Etherpad für kollaborative Notizen

ForschungsdatenArchivierung (zuletzt geändert am 2019-11-29 08:08:50 durch hayd@cbs.mpg.de)

-  ⇤ ← Revision 2 vom 2019-11-12 14:45:31 → 
  Größe: 1877
  Autor: hayd@cbs.mpg.de
  Kommentar:
+   ← Revision 20 vom 2019-11-29 08:04:28 → ⇥
  Größe: 5419
  Autor: hayd@cbs.mpg.de
  Kommentar:
-Gelöschter Text ist auf diese Art markiert.
+Hinzugefügter Text ist auf diese Art markiert.
 Zeile 1:
+#acl hayd@cbs.mpg.de:read,write,delete,revert,admin SevenupGroup:read,write All:read
-Zeile 4:
+Zeile 5:
+<<TableOfContents(3)>>
-Zeile 11:
+Zeile 14:
-Zeile 15:
+Zeile 17:
-  * [[https://www.cbs.mpg.de/institut/anreise/institut|Stephanstraße 1A, D-04103 Leipzig]]
 Zeile 19:
-== Agenda ==
+== Die Vorträge ==
 Zeile 22:
- * Herr Detlef Jahn, contac Datentechnik
+ * Herr Detlef Jahn, [[https://www.contac-dt.de/|contac Datentechnik]]
 * 10:00 -11:30
-Zeile 24:
+Zeile 25:
- * Workflow Engine: [[https://www.danrw.de/ueber-das-da-nrw/da-nrw-ein-loesungsverbund/|DA-NRW (Digitales Archiv NRW), DNS-Core]] alles Freie Software
+ * Workflow Engine: [[https://www.danrw.de/ueber-das-da-nrw/da-nrw-ein-loesungsverbund/|DA-NRW (Digitales Archiv NRW), DNS-Core]], alles Freie Software
-Zeile 28:
+Zeile 29:
+ * [[attachment:Kulturdatenarchivierung_der_Thueringer-Hochschulen.pdf|die Präsentation]]
-Zeile 29:
+Zeile 33:
- * ein SE von [[https://www.graudata.com/|Grau Data]]
+ * Ulrich Lechner, Entwicklungsleiter von [[https://www.graudata.com/|Grau Data]] 
 * 12:00 - 13:30
-Zeile 34:
+Zeile 39:
+ * Schutz vor Ransomware
-Zeile 35:
+Zeile 41:
+ * [[attachment:Grau-Data.pdf|die Präsentation]]
 * Löschen von Daten aus Archiven:
  * [[attachment:Removing_expired_or_deleted_data.pdf|Removing expired or deleted data]]
  * [[attachment:Verfahren_privileged_delete_bei_WORM_Daten.pdf|Verfahren „privileged delete“ bei WORM Daten]]
-Zeile 39:
+Zeile 50:
- * Definition von Metadaten
+ * 13:45 - 15:15
 * Definition von Metadaten mangels Standard
-Zeile 47:
+Zeile 59:
+ * Präsentation fehlt noch
-Zeile 48:
+Zeile 61:
+== URLs zum Thema ==

In den Diskussionen wurden zahlreiche Projekte aus dem Themenfeld erwähnt. Hier die URLs dazu:



 * [[https://isa-tools.org|open source framework meta-data]]
 * [[https://fair-dom.org/platform/seek/|project management]]
 * [[https://csb.ethz.ch/tools/software/openbis-lims-eln.html|open source LIMS]]
 * [[ https://www.gesis.org/institut/abteilungen/datenarchiv-fuer-sozialwissenschaften|Datenarchiv des GESIS (Leibniz-Institut für Sozialwissenschaften)]]
 * [[https://ddialliance.org/|Metadatenstandard DDI des GESIS]]
 * [[https://opara.zih.tu-dresden.de/xmlui/|Forschungsdaten-Repositorium der TU Dresden: OpARA ]]
 * [[https://tu-dresden.de/zih/forschung/projekte/gerdi|GERDI - Generic Research Data Infrastructure]]
 * [[https://delta.io|DELTA.IO - storage layer for ACID transactions to Apache Spark]]
 * [[https://tika.apache.org/|Apache Tika - content analysis (metadata) toolkit]]
 * [[https://opara.zih.tu-dresden.de/xmlui|OPARA - Open Access Repository and Archive]]
 * [[https://rdmorganiser.github.io/en|RDMO - The Research Data Management Organiser]]
 * [[https://www.gwdg.de/storage-services/data-archiving|CDSTAR - Common Data Storage ARchitecture]]
 * [[https://ocfl.io/|OCFL - Oxford Common File Layout]]
 * [[https://osf.io/|OSF.IO - Open Science Framework]]
 * [[https://cos.io|COS.IO - Center for Open Science]]
 * [[https://www.pangaea.de/|PANGAEA Data Publisher]] eine vielgelobte Lösung



== Hinweise der IT-Revision ==

Hier ein paar Hinweise der IT-Revision zur technischen Umsetzung, die in verschiedenen Quellen als wichtig angegeben wurden:

 * Eine Regelung sollte vorhanden sein, siehe unter anderem das entsprechende Kapitel in den Hinweisen und Beispielen der Revision (die Inhalte sind eine stark reduzierte Zusammenfassung aus verschiedenen Quellen)
 * Original- und Archivdaten sollten räumlich getrennt sein.
 * Eine regelmäßige und systematische Überprüfungen der Funktionsfähigkeit der Wiederherstellung sollte vorhanden sein.
 * Eine Überwachung/ Monitoring des Archivierungssystems sollte vorhanden sein.
 * Die Zugriffsberechtigungen sollten verwaltet werden.
 * Die Zugriffe sollten protokolliert werden.
 * Notfallvorsorgemaßnahmen sollten vorhanden sind.


== Fazit ==

 * Es gibt mehr Arbeitskreise als Software und Lösungen zu dem Thema.
 * Das Interesse daran, Forschungsdaten zu archivieren, ist sehr unterschiedlich ausgeprägt.
 * Es besteht ein dringender Bedarf an Software - z.B. um Daten mit Metadaten anzureichern
 * Auch kleinen Gruppen gelingt es nicht, sich auf einen Satz beschreibender Attribute zu einigen.
 * Die Not ist so groß, dass alle Diskussionen immer noch beim [[https://de.wikipedia.org/wiki/Dublin_Core|Dublin Core]] beginnen.












=== Notizen ===

 [[https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion|Etherpad]] für kollaborative Notizen

Quick Links

Search Wiki

Page Tools