welcome: please sign in
location: Änderungen von "ForschungsdatenArchivierung/Discussion"
Unterschiede zwischen den Revisionen 5 und 10 (über 5 Versionen hinweg)
Revision 5 vom 2019-11-26 10:38:29
Größe: 2386
Kommentar:
Revision 10 vom 2021-05-19 07:13:33
Größe: 4896
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 60: Zeile 60:





Zeile 68: Zeile 62:
 *  * XtreemStore: Release Jan. 2020
 * noch ca. 5 HSM-Systeme heute
 * GAM3 braucht keine Migration
 * XtreemStore = Speicher
  * Trennung von Logik und realem Filesystem
  * XS verwaltet Daten
  * Unterstützung von Bändern ist zentral
  * Global Data Manager = GAM-Client
  * 2 Abstraktionsschichten
   * Wo gehen die Daten hin?
   * Zugang zu Daten

 * Global File Catalog (GFC)
  * = Katalog = Herzstück aller Verwaltungsfunktionen
  * bildet ein Filesystem nach
  * man kann dort auch externe Metadaten speichern
  * weiss alles, kann nichts tun

 * File System Manager (FSM)
  * entspricht GAM-Client
  * kann Continous Backup
  * FSM erscheint im April 2020

 * Metadaten Management , Q3 2020
  * mit diesen Metadaten kann eine Rules-Engine arbeiten
  * kann man mit der Hand eintragen
  * man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
  * Man kann Metadaten verschlüsselt ablegen.

 * Synthetisches Filesystem
  * wird aus Infos im GFC gebaut
  * es wird ein virtuelles Filsystem aufgebut im User Space

 * Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
 * LTO-Laufwerk schreibt selbst mit Redundan
 * oft kann man nach Defekt auf Band auch keine Daten mehr lesen
 * Software unter GPL
 * FUSE um von Kernel unabhängig zu werden
 * DSGVO: man muss nicht Löschen, sondern unerreichbar machen
 * eigentlich kein HSM mehr
Zeile 73: Zeile 106:
  *  * 185 Mitabeiter, 65 Labore
 * List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
 * 120 Leute pro Jahr rein und raus
 * Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
 * brauchbare Web-Content-SW gab es nicht
 * www.pangea.de = sehr gut
 * https://icatproject.org
 * RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
 * Datenmenge < 1TB/a
 * HDF5 als Datenformat
 * Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
 * eine Person legt Metadaten an
 * haben selbst einen Satz Attribute definiert
 * keine einheitliche Bezeichnung, daher großes Freitext-Feld
 * Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
 * lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
 * Entwicklung durch Scopeland sind 3x billiger als native Programmierung
 * GUI hat weniger als 100t€ gekostet
 * origin4 wird mit arciviert
Zeile 77: Zeile 128:
= Misc =
 * MPCDF archviert Docker-Container
 * rosetta als Kulturdatenarchivierungssoftware
 * Nestor

Notizen zum Workshop Forschungsdatenarchivierung

für alle zum Mitmachen

Kulturdatenarchivierung der Thüringer Hochschulen

  • zu archivieren: Parkatlas in Gotha
  • Uni Köln hat Software entwickelt
  • SIP enthält payload + Metadaten
  • beim Packen von SIP werden Metadaten abgefragt
  • SIP = tar Format, nicht fehlertolerant
  • SIP, AIP, DIP sollen populär sein
  • für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
  • DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
  • Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
  • MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland

  • ab SIP ist das Packet format-neutral
  • HSM mit mehreren Standorten funktioniert nur mit dark fibre

iRODS

  • Was man in iRODS reinkippt, landet so auf Band
  • iRODs kann man auch über Bestandsdaten laufen lassen
  • iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
  • iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
  • im letzter Zeit kam wieder Zug in die Enwicklung

Misc

  • Blockchain = dezentrales Vertrauen in Prüfsummen
  • erasure coding auf Tape in Arbeit
  • alles über 1TB ist unhandlich
  • UrMEL ist das User-Interface, sucht mit elasticSearch
  • für Metadaten gibt es keine Credits
  • Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
  • UFZ: der halbe Dublin Core muss ausgefüllt werden
  • Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
  • UFZ: generische Lösungen
  • Uni Leipzg:
    • hat AG Forschungsdaten
    • TU Dresden und Freiberg entwickeln opawa
    • nationale Forschungsdateninfrastruktur
    • verschiedene Domänen sind unterschiedlich weit
    • in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute

MPDCF, MPDL

  • baut etwas mit apache ticka, nutzt auch MPDL
  • Tool der MPDL will keiner nutzen

Skalierbare Object Store Software mit S3 für Disc u. Tape

  • XtreemStore: Release Jan. 2020

  • noch ca. 5 HSM-Systeme heute
  • GAM3 braucht keine Migration
  • XtreemStore = Speicher

    • Trennung von Logik und realem Filesystem
    • XS verwaltet Daten
    • Unterstützung von Bändern ist zentral
    • Global Data Manager = GAM-Client
    • 2 Abstraktionsschichten
      • Wo gehen die Daten hin?
      • Zugang zu Daten
  • Global File Catalog (GFC)
    • = Katalog = Herzstück aller Verwaltungsfunktionen
    • bildet ein Filesystem nach
    • man kann dort auch externe Metadaten speichern
    • weiss alles, kann nichts tun
  • File System Manager (FSM)
    • entspricht GAM-Client
    • kann Continous Backup
    • FSM erscheint im April 2020
  • Metadaten Management , Q3 2020
    • mit diesen Metadaten kann eine Rules-Engine arbeiten
    • kann man mit der Hand eintragen
    • man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
    • Man kann Metadaten verschlüsselt ablegen.
  • Synthetisches Filesystem
    • wird aus Infos im GFC gebaut
    • es wird ein virtuelles Filsystem aufgebut im User Space
  • Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
  • LTO-Laufwerk schreibt selbst mit Redundan
  • oft kann man nach Defekt auf Band auch keine Daten mehr lesen
  • Software unter GPL
  • FUSE um von Kernel unabhängig zu werden
  • DSGVO: man muss nicht Löschen, sondern unerreichbar machen
  • eigentlich kein HSM mehr

Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin

  • 185 Mitabeiter, 65 Labore
  • List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
  • 120 Leute pro Jahr rein und raus
  • Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
  • brauchbare Web-Content-SW gab es nicht
  • www.pangea.de = sehr gut
  • https://icatproject.org

  • RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de

  • Datenmenge < 1TB/a

  • HDF5 als Datenformat
  • Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
  • eine Person legt Metadaten an
  • haben selbst einen Satz Attribute definiert
  • keine einheitliche Bezeichnung, daher großes Freitext-Feld
  • Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
  • lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
  • Entwicklung durch Scopeland sind 3x billiger als native Programmierung
  • GUI hat weniger als 100t€ gekostet
  • origin4 wird mit arciviert

Misc

  • MPCDF archviert Docker-Container
  • rosetta als Kulturdatenarchivierungssoftware
  • Nestor

ForschungsdatenArchivierung/Discussion (zuletzt geändert am 2021-05-19 07:13:33 durch hayd@cbs.mpg.de)