Notizen zum Workshop Forschungsdatenarchivierung
Inhaltsverzeichnis
für alle zum Mitmachen
Kulturdatenarchivierung der Thüringer Hochschulen
- zu archivieren: Parkatlas in Gotha
- Uni Köln hat Software entwickelt
- SIP enthält payload + Metadaten
- beim Packen von SIP werden Metadaten abgefragt
- SIP = tar Format, nicht fehlertolerant
- SIP, AIP, DIP sollen populär sein
- für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
- DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
- Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland
- ab SIP ist das Packet format-neutral
- HSM mit mehreren Standorten funktioniert nur mit dark fibre
iRODS
- Was man in iRODS reinkippt, landet so auf Band
- iRODs kann man auch über Bestandsdaten laufen lassen
- iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
- iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
- im letzter Zeit kam wieder Zug in die Enwicklung
Misc
- Blockchain = dezentrales Vertrauen in Prüfsummen
- erasure coding auf Tape in Arbeit
- alles über 1TB ist unhandlich
- UrMEL ist das User-Interface, sucht mit elasticSearch
- für Metadaten gibt es keine Credits
- Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
- UFZ: der halbe Dublin Core muss ausgefüllt werden
- Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
- UFZ: generische Lösungen
- Uni Leipzg:
- hat AG Forschungsdaten
- TU Dresden und Freiberg entwickeln opawa
- nationale Forschungsdateninfrastruktur
- verschiedene Domänen sind unterschiedlich weit
- in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute
MPDCF, MPDL
- baut etwas mit apache ticka, nutzt auch MPDL
- Tool der MPDL will keiner nutzen
Skalierbare Object Store Software mit S3 für Disc u. Tape
XtreemStore: Release Jan. 2020
- noch ca. 5 HSM-Systeme heute
- GAM3 braucht keine Migration
XtreemStore = Speicher
- Trennung von Logik und realem Filesystem
- XS verwaltet Daten
- Unterstützung von Bändern ist zentral
- Global Data Manager = GAM-Client
- 2 Abstraktionsschichten
- Wo gehen die Daten hin?
- Zugang zu Daten
- Global File Catalog (GFC)
- = Katalog = Herzstück aller Verwaltungsfunktionen
- bildet ein Filesystem nach
- man kann dort auch externe Metadaten speichern
- weiss alles, kann nichts tun
- File System Manager (FSM)
- entspricht GAM-Client
- kann Continous Backup
- FSM erscheint im April 2020
- Metadaten Management , Q3 2020
- mit diesen Metadaten kann eine Rules-Engine arbeiten
- kann man mit der Hand eintragen
- man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
- Man kann Metadaten verschlüsselt ablegen.
- Synthetisches Filesystem
- wird aus Infos im GFC gebaut
- es wird ein virtuelles Filsystem aufgebut im User Space
- Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
- LTO-Laufwerk schreibt selbst mit Redundan
- oft kann man nach Defekt auf Band auch keine Daten mehr lesen
- Software unter GPL
- FUSE um von Kernel unabhängig zu werden
- DSGVO: man muss nicht Löschen, sondern unerreichbar machen
- eigentlich kein HSM mehr
Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin
- 185 Mitabeiter, 65 Labore
- List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
- 120 Leute pro Jahr rein und raus
- Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
- brauchbare Web-Content-SW gab es nicht
- www.pangea.de = sehr gut
RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
Datenmenge < 1TB/a
- HDF5 als Datenformat
- Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
- eine Person legt Metadaten an
- haben selbst einen Satz Attribute definiert
- keine einheitliche Bezeichnung, daher großes Freitext-Feld
- Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
- lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
- Entwicklung durch Scopeland sind 3x billiger als native Programmierung
- GUI hat weniger als 100t€ gekostet
- origin4 wird mit arciviert
Misc
- MPCDF archviert Docker-Container
- rosetta als Kulturdatenarchivierungssoftware
- Nestor