ForschungsdatenArchivierung/Discussion

ForschungsdatenArchivierung/Discussion102021-05-19 07:13:33hayd@cbs.mpg.de92019-11-29 08:03:33hayd@cbs.mpg.de82019-11-26 14:29:07hayd@cbs.mpg.de72019-11-26 14:20:04hayd@cbs.mpg.de62019-11-26 14:19:51hayd@cbs.mpg.de52019-11-26 10:38:29hayd@cbs.mpg.de42019-11-26 09:22:05hayd@cbs.mpg.de32019-11-25 09:58:52hayd@cbs.mpg.de22019-11-25 09:57:30hayd@cbs.mpg.de12019-11-25 09:55:29hayd@cbs.mpg.de

Notizen zum Workshop Forschungsdatenarchivierungfür alle zum Mitmachen

Kulturdatenarchivierung der Thüringer Hochschulenzu archivieren: Parkatlas in Gotha Uni Köln hat Software entwickelt SIP enthält payload + Metadaten beim Packen von SIP werden Metadaten abgefragt SIP = tar Format, nicht fehlertolerant SIP, AIP, DIP sollen populär sein für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland ab SIP ist das Packet format-neutral HSM mit mehreren Standorten funktioniert nur mit dark fibre

iRODSWas man in iRODS reinkippt, landet so auf Band iRODs kann man auch über Bestandsdaten laufen lassen iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt im letzter Zeit kam wieder Zug in die Enwicklung

MiscBlockchain = dezentrales Vertrauen in Prüfsummen erasure coding auf Tape in Arbeit alles über 1TB ist unhandlich UrMEL ist das User-Interface, sucht mit elasticSearch für Metadaten gibt es keine Credits Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea UFZ: der halbe Dublin Core muss ausgefüllt werden Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen UFZ: generische Lösungen Uni Leipzg: hat AG Forschungsdaten TU Dresden und Freiberg entwickeln opawa nationale Forschungsdateninfrastruktur verschiedene Domänen sind unterschiedlich weit in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute MPDCF, MPDL baut etwas mit apache ticka, nutzt auch MPDL Tool der MPDL will keiner nutzen

Skalierbare Object Store Software mit S3 für Disc u. TapeXtreemStore: Release Jan. 2020 noch ca. 5 HSM-Systeme heute GAM3 braucht keine Migration XtreemStore = Speicher Trennung von Logik und realem Filesystem XS verwaltet Daten Unterstützung von Bändern ist zentral Global Data Manager = GAM-Client 2 Abstraktionsschichten Wo gehen die Daten hin? Zugang zu Daten Global File Catalog (GFC) = Katalog = Herzstück aller Verwaltungsfunktionen bildet ein Filesystem nach man kann dort auch externe Metadaten speichern weiss alles, kann nichts tun File System Manager (FSM) entspricht GAM-Client kann Continous Backup FSM erscheint im April 2020 Metadaten Management , Q3 2020 mit diesen Metadaten kann eine Rules-Engine arbeiten kann man mit der Hand eintragen man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen Man kann Metadaten verschlüsselt ablegen. Synthetisches Filesystem wird aus Infos im GFC gebaut es wird ein virtuelles Filsystem aufgebut im User Space Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal LTO-Laufwerk schreibt selbst mit Redundan oft kann man nach Defekt auf Band auch keine Daten mehr lesen Software unter GPL FUSE um von Kernel unabhängig zu werden DSGVO: man muss nicht Löschen, sondern unerreichbar machen eigentlich kein HSM mehr

Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin185 Mitabeiter, 65 Labore List of Shame, wenn gute wiss. Praxis nicht erfüllt wird 120 Leute pro Jahr rein und raus Bibliothekssoftware kann nicht mit großen Datenmengen umgehen brauchbare Web-Content-SW gab es nicht www.pangea.de = sehr gut RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: Datenmenge < 1TB/a HDF5 als Datenformat Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet eine Person legt Metadaten an haben selbst einen Satz Attribute definiert keine einheitliche Bezeichnung, daher großes Freitext-Feld Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch Entwicklung durch Scopeland sind 3x billiger als native Programmierung GUI hat weniger als 100t€ gekostet origin4 wird mit arciviert

MiscMPCDF archviert Docker-Container rosetta als Kulturdatenarchivierungssoftware Nestor