welcome: please sign in
location: Änderungen von "ForschungsdatenArchivierung/Discussion"
Unterschiede zwischen den Revisionen 1 und 8 (über 7 Versionen hinweg)
Revision 1 vom 2019-11-25 09:55:29
Größe: 315
Kommentar:
Revision 8 vom 2019-11-26 14:29:07
Größe: 4899
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 1: Zeile 1:
# Exported from Etherpad to MoinMoin ( https://github.com/smilix/ep_moinmoin_export ).
# tip: Use <<BR>> or an extra blank line for a new line.
Zeile 5: Zeile 7:
für alle zum Mitmachen
Zeile 10: Zeile 12:
   * zu archivieren: Parkatlas in Gotha
 * Uni Köln hat Software entwickelt
 * SIP enthält payload + Metadaten
 * beim Packen von SIP werden Metadaten abgefragt
 * SIP = tar Format, nicht fehlertolerant
 * SIP, AIP, DIP sollen populär sein
 * für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
 * DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
 * Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
 * MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland
 * ab SIP ist das Packet format-neutral
 * HSM mit mehreren Standorten funktioniert nur mit dark fibre

== iRODS ==
 * Was man in iRODS reinkippt, landet so auf Band
 * iRODs kann man auch über Bestandsdaten laufen lassen
 * iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
 * iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
 * im letzter Zeit kam wieder Zug in die Enwicklung

== Misc ==
 * Blockchain = dezentrales Vertrauen in Prüfsummen
 * erasure coding auf Tape in Arbeit
 * alles über 1TB ist unhandlich
 * UrMEL ist das User-Interface, sucht mit elasticSearch
 * für Metadaten gibt es keine Credits
 * Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
 * UFZ: der halbe Dublin Core muss ausgefüllt werden
 * Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
 * UFZ: generische Lösungen
 * Uni Leipzg:
  * hat AG Forschungsdaten
  * TU Dresden und Freiberg entwickeln opawa
  * nationale Forschungsdateninfrastruktur
  * verschiedene Domänen sind unterschiedlich weit
  * in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute
  *


MPDCF, MPDL
 * baut etwas mit apache ticka, nutzt auch MPDL
 * Tool der MPDL will keiner nutzen
 *
 *

Zeile 15: Zeile 62:
 * XtreemStore: Release Jan. 2020
 * noch ca. 5 HSM-Systeme heute
 * GAM3 braucht keine Migration
 * XtreemStrore = Speciher
  * Trennung von Logik und realem Filesystem
  * XS verwaltet Daten
  * Unterstützung von Bändern ist zentral
  * Global Data Manager = GAM-Client
  * 2 Abstraktionsschichten
   * Wo gehen die Daten hin?
   * Zugang zu Daten

 * Global File Catalog (GFC)
  * = Katalog = Herzstück aller Verwaltungsfunktionen
  * bildet ein Filesystem nach
  * man kann dort auch externe Metadaten speichern
  * weiss alles, kann nichts tun

 * File System Manager (FSM)
  * entspricht GAM-Client
  * kann Continous Backup
  * FSM erscheint im April 2020

 * Metadaten Management , Q3 2020
  * mit diesen Metadaten kann eine Rules-Engine arbeiten
  * kann man mit der Hand eintragen
  * man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
  * Man kann Metadaten verschlüsselt ablegen.

 * Synthetisches Filesystem
  * wird aus Infos im GFC gebaut
  * es wird ein virtuelles Filsystem aufgebut im User Space

 * Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
 * LTO-Laufwerk schreibt selbst mit Redundan
 * oft kann man nach Defekt auf Band auch keine Daten mehr lesen
 * Software unter GPL
 * FUSE um von Kernel unabhängig zu werden
 * DSGVO: man muss nicht Löschen, sondern unerreichbar machen
 * eigentlich kein HSM mehr


== Vorstellung des Forschungsdaten-Managementsystems
am Max-Born-Institut, Berlin ==

 * 185 Mitabeiter, 65 Labore
 * List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
 * 120 Leute pro Jahr rein und raus
 * Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
 * brauchbare Web-Content-SW gab es nicht
 * www.pangea.de = sehr gut
 * https://icatproject.org
 * RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
 * Datenmenge < 1TB/a
 * HDF5 als Datenformat
 * Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
 * eine Person legt Metadaten an
 * haben selbst einen Satz Attribute definiert
 * keine einheitliche Bezeichnung, daher großes Freitext-Feld
 * Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
 * lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
 * Entwicklung durch Scopeland sind 3x billiger als native Programmierung
 * GUI hat weniger als 100t€ gekostet
 * origin4 wird mit arciviert
Zeile 18: Zeile 129:
== Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin == = Misc =
 * MPCDF archviert Docker-Container
 * rosetta als Kulturdatenarchivierungssoftware
 * Nestor

Notizen zum Workshop Forschungsdatenarchivierung

für alle zum Mitmachen

Kulturdatenarchivierung der Thüringer Hochschulen

  • zu archivieren: Parkatlas in Gotha
  • Uni Köln hat Software entwickelt
  • SIP enthält payload + Metadaten
  • beim Packen von SIP werden Metadaten abgefragt
  • SIP = tar Format, nicht fehlertolerant
  • SIP, AIP, DIP sollen populär sein
  • für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
  • DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
  • Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
  • MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland

  • ab SIP ist das Packet format-neutral
  • HSM mit mehreren Standorten funktioniert nur mit dark fibre

iRODS

  • Was man in iRODS reinkippt, landet so auf Band
  • iRODs kann man auch über Bestandsdaten laufen lassen
  • iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
  • iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
  • im letzter Zeit kam wieder Zug in die Enwicklung

Misc

  • Blockchain = dezentrales Vertrauen in Prüfsummen
  • erasure coding auf Tape in Arbeit
  • alles über 1TB ist unhandlich
  • UrMEL ist das User-Interface, sucht mit elasticSearch
  • für Metadaten gibt es keine Credits
  • Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
  • UFZ: der halbe Dublin Core muss ausgefüllt werden
  • Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
  • UFZ: generische Lösungen
  • Uni Leipzg:
    • hat AG Forschungsdaten
    • TU Dresden und Freiberg entwickeln opawa
    • nationale Forschungsdateninfrastruktur
    • verschiedene Domänen sind unterschiedlich weit
    • in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute

MPDCF, MPDL

  • baut etwas mit apache ticka, nutzt auch MPDL
  • Tool der MPDL will keiner nutzen

Skalierbare Object Store Software mit S3 für Disc u. Tape

  • XtreemStore: Release Jan. 2020

  • noch ca. 5 HSM-Systeme heute
  • GAM3 braucht keine Migration
  • XtreemStrore = Speciher

    • Trennung von Logik und realem Filesystem
    • XS verwaltet Daten
    • Unterstützung von Bändern ist zentral
    • Global Data Manager = GAM-Client
    • 2 Abstraktionsschichten
      • Wo gehen die Daten hin?
      • Zugang zu Daten
  • Global File Catalog (GFC)
    • = Katalog = Herzstück aller Verwaltungsfunktionen
    • bildet ein Filesystem nach
    • man kann dort auch externe Metadaten speichern
    • weiss alles, kann nichts tun
  • File System Manager (FSM)
    • entspricht GAM-Client
    • kann Continous Backup
    • FSM erscheint im April 2020
  • Metadaten Management , Q3 2020
    • mit diesen Metadaten kann eine Rules-Engine arbeiten
    • kann man mit der Hand eintragen
    • man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
    • Man kann Metadaten verschlüsselt ablegen.
  • Synthetisches Filesystem
    • wird aus Infos im GFC gebaut
    • es wird ein virtuelles Filsystem aufgebut im User Space
  • Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
  • LTO-Laufwerk schreibt selbst mit Redundan
  • oft kann man nach Defekt auf Band auch keine Daten mehr lesen
  • Software unter GPL
  • FUSE um von Kernel unabhängig zu werden
  • DSGVO: man muss nicht Löschen, sondern unerreichbar machen
  • eigentlich kein HSM mehr

== Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin ==

  • 185 Mitabeiter, 65 Labore
  • List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
  • 120 Leute pro Jahr rein und raus
  • Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
  • brauchbare Web-Content-SW gab es nicht
  • www.pangea.de = sehr gut
  • https://icatproject.org

  • RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de

  • Datenmenge < 1TB/a

  • HDF5 als Datenformat
  • Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
  • eine Person legt Metadaten an
  • haben selbst einen Satz Attribute definiert
  • keine einheitliche Bezeichnung, daher großes Freitext-Feld
  • Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
  • lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
  • Entwicklung durch Scopeland sind 3x billiger als native Programmierung
  • GUI hat weniger als 100t€ gekostet
  • origin4 wird mit arciviert

Misc

  • MPCDF archviert Docker-Container
  • rosetta als Kulturdatenarchivierungssoftware
  • Nestor

ForschungsdatenArchivierung/Discussion (zuletzt geändert am 2021-05-19 07:13:33 durch hayd@cbs.mpg.de)