Unterschiede zwischen den Revisionen 1 und 8 (über 7 Versionen hinweg)

Notizen zum Workshop Forschungsdatenarchivierung

Inhaltsverzeichnis

Notizen zum Workshop Forschungsdatenarchivierung
Misc

für alle zum Mitmachen

Kulturdatenarchivierung der Thüringer Hochschulen

zu archivieren: Parkatlas in Gotha
Uni Köln hat Software entwickelt
SIP enthält payload + Metadaten
beim Packen von SIP werden Metadaten abgefragt
SIP = tar Format, nicht fehlertolerant
SIP, AIP, DIP sollen populär sein
für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland
ab SIP ist das Packet format-neutral
HSM mit mehreren Standorten funktioniert nur mit dark fibre

iRODS

Was man in iRODS reinkippt, landet so auf Band
iRODs kann man auch über Bestandsdaten laufen lassen
iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
im letzter Zeit kam wieder Zug in die Enwicklung

Misc

Blockchain = dezentrales Vertrauen in Prüfsummen
erasure coding auf Tape in Arbeit
alles über 1TB ist unhandlich
UrMEL ist das User-Interface, sucht mit elasticSearch
für Metadaten gibt es keine Credits
Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
UFZ: der halbe Dublin Core muss ausgefüllt werden
Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
UFZ: generische Lösungen
Uni Leipzg:
- hat AG Forschungsdaten
- TU Dresden und Freiberg entwickeln opawa
- nationale Forschungsdateninfrastruktur
- verschiedene Domänen sind unterschiedlich weit
- in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute

MPDCF, MPDL

baut etwas mit apache ticka, nutzt auch MPDL
Tool der MPDL will keiner nutzen

Skalierbare Object Store Software mit S3 für Disc u. Tape

XtreemStore: Release Jan. 2020
noch ca. 5 HSM-Systeme heute
GAM3 braucht keine Migration
XtreemStrore = Speciher
- Trennung von Logik und realem Filesystem
- XS verwaltet Daten
- Unterstützung von Bändern ist zentral
- Global Data Manager = GAM-Client
- 2 Abstraktionsschichten
  - Wo gehen die Daten hin?
  - Zugang zu Daten
Global File Catalog (GFC)
- = Katalog = Herzstück aller Verwaltungsfunktionen
- bildet ein Filesystem nach
- man kann dort auch externe Metadaten speichern
- weiss alles, kann nichts tun
File System Manager (FSM)
- entspricht GAM-Client
- kann Continous Backup
- FSM erscheint im April 2020
Metadaten Management , Q3 2020
- mit diesen Metadaten kann eine Rules-Engine arbeiten
- kann man mit der Hand eintragen
- man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
- Man kann Metadaten verschlüsselt ablegen.
Synthetisches Filesystem
- wird aus Infos im GFC gebaut
- es wird ein virtuelles Filsystem aufgebut im User Space
Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
LTO-Laufwerk schreibt selbst mit Redundan
oft kann man nach Defekt auf Band auch keine Daten mehr lesen
Software unter GPL
FUSE um von Kernel unabhängig zu werden
DSGVO: man muss nicht Löschen, sondern unerreichbar machen
eigentlich kein HSM mehr

== Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin ==

185 Mitabeiter, 65 Labore
List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
120 Leute pro Jahr rein und raus
Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
brauchbare Web-Content-SW gab es nicht
www.pangea.de = sehr gut
https://icatproject.org
RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
Datenmenge < 1TB/a
HDF5 als Datenformat
Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
eine Person legt Metadaten an
haben selbst einen Satz Attribute definiert
keine einheitliche Bezeichnung, daher großes Freitext-Feld
Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
Entwicklung durch Scopeland sind 3x billiger als native Programmierung
GUI hat weniger als 100t€ gekostet
origin4 wird mit arciviert

Misc

MPCDF archviert Docker-Container
rosetta als Kulturdatenarchivierungssoftware
Nestor

ForschungsdatenArchivierung/Discussion (zuletzt geändert am 2021-05-19 07:13:33 durch hayd@cbs.mpg.de)

-  ⇤ ← Revision 1 vom 2019-11-25 09:55:29 → 
  Größe: 315
  Autor: hayd@cbs.mpg.de
  Kommentar:
+   ← Revision 8 vom 2019-11-26 14:29:07 → ⇥
  Größe: 4899
  Autor: hayd@cbs.mpg.de
  Kommentar:
-Gelöschter Text ist auf diese Art markiert.
+Hinzugefügter Text ist auf diese Art markiert.
 Zeile 1:
+# Exported from Etherpad to MoinMoin ( https://github.com/smilix/ep_moinmoin_export ).
# tip: Use <<BR>> or an extra blank line for a new line.
-Zeile 5:
+Zeile 7:
+für alle zum Mitmachen
-Zeile 10:
+Zeile 12:
+ *  zu archivieren: Parkatlas in Gotha
 * Uni Köln hat Software entwickelt
 * SIP enthält payload + Metadaten
 * beim Packen von SIP werden Metadaten abgefragt
 * SIP = tar Format, nicht fehlertolerant
 * SIP, AIP, DIP sollen populär sein
 * für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
 * DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
 * Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
 * MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland
 * ab SIP ist das Packet format-neutral
 * HSM mit mehreren Standorten funktioniert nur mit dark fibre

== iRODS ==
 * Was man in iRODS reinkippt, landet so auf Band
 * iRODs kann man auch über Bestandsdaten laufen lassen
 * iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
 * iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
 * im letzter Zeit kam wieder Zug in die Enwicklung

== Misc ==
 * Blockchain = dezentrales Vertrauen in Prüfsummen
 * erasure coding auf Tape in Arbeit
 * alles über 1TB ist unhandlich
 * UrMEL ist das User-Interface, sucht mit elasticSearch
 * für Metadaten gibt es keine Credits
 * Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
 * UFZ: der halbe Dublin Core muss ausgefüllt werden
 * Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
 * UFZ: generische Lösungen 
 * Uni Leipzg:
  * hat AG Forschungsdaten
  * TU Dresden und Freiberg entwickeln opawa
  * nationale Forschungsdateninfrastruktur
  * verschiedene Domänen sind unterschiedlich weit
  * in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute
  * 


MPDCF, MPDL
 * baut etwas mit apache ticka, nutzt auch MPDL
 * Tool der MPDL will keiner nutzen
 * 
 *
-Zeile 15:
+Zeile 62:
+ * XtreemStore: Release Jan. 2020
 * noch ca. 5 HSM-Systeme heute
 * GAM3 braucht keine Migration
 * XtreemStrore = Speciher
  * Trennung von Logik und realem Filesystem
  * XS verwaltet Daten
  * Unterstützung von Bändern ist zentral
  * Global Data Manager = GAM-Client
  * 2 Abstraktionsschichten
   * Wo gehen die Daten hin?
   * Zugang zu Daten

 * Global File Catalog (GFC)
  * = Katalog = Herzstück aller Verwaltungsfunktionen
  * bildet ein Filesystem nach
  * man kann dort auch externe Metadaten speichern
  * weiss alles, kann nichts tun

 * File System Manager (FSM)
  * entspricht GAM-Client
  * kann Continous Backup
  * FSM erscheint im April 2020

 *  Metadaten Management , Q3 2020
  * mit diesen Metadaten kann  eine Rules-Engine arbeiten
  * kann man mit der Hand eintragen
  * man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
  * Man kann Metadaten verschlüsselt ablegen.

 * Synthetisches Filesystem
  * wird aus Infos im GFC  gebaut
  * es wird ein virtuelles Filsystem aufgebut im User Space

 * Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
 * LTO-Laufwerk schreibt selbst mit Redundan
 * oft kann man nach Defekt auf Band auch keine Daten mehr lesen
 * Software unter GPL
 * FUSE um von Kernel unabhängig zu werden
 * DSGVO: man muss nicht Löschen, sondern unerreichbar machen
 * eigentlich kein HSM mehr


== Vorstellung des Forschungsdaten-Managementsystems 
am Max-Born-Institut, Berlin ==

 * 185 Mitabeiter, 65 Labore
 * List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
 * 120 Leute pro Jahr rein und raus
 * Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
 * brauchbare Web-Content-SW gab es nicht
 * www.pangea.de = sehr gut
 * https://icatproject.org
 * RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
 * Datenmenge < 1TB/a
 * HDF5 als Datenformat
 * Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
 * eine Person legt Metadaten an
 * haben selbst einen Satz Attribute definiert
 * keine einheitliche Bezeichnung, daher großes Freitext-Feld
 * Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
 * lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
 * Entwicklung durch Scopeland sind 3x billiger als native Programmierung
 * GUI hat weniger als 100t€ gekostet
 * origin4 wird mit arciviert
-Zeile 18:
+Zeile 129:
-== Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin ==
+= Misc =
 * MPCDF archviert Docker-Container
 * rosetta als Kulturdatenarchivierungssoftware
 * Nestor

Quick Links

Search Wiki

Page Tools

Notizen zum Workshop Forschungsdatenarchivierung

Kulturdatenarchivierung der Thüringer Hochschulen

iRODS

Misc

Skalierbare Object Store Software mit S3 für Disc u. Tape

Misc