# Exported from Etherpad to MoinMoin ( https://github.com/smilix/ep_moinmoin_export ). # tip: Use <
> or an extra blank line for a new line. = Notizen zum Workshop Forschungsdatenarchivierung = <> für alle zum Mitmachen == Kulturdatenarchivierung der Thüringer Hochschulen == * zu archivieren: Parkatlas in Gotha * Uni Köln hat Software entwickelt * SIP enthält payload + Metadaten * beim Packen von SIP werden Metadaten abgefragt * SIP = tar Format, nicht fehlertolerant * SIP, AIP, DIP sollen populär sein * für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch * DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist * Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core * MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland * ab SIP ist das Packet format-neutral * HSM mit mehreren Standorten funktioniert nur mit dark fibre == iRODS == * Was man in iRODS reinkippt, landet so auf Band * iRODs kann man auch über Bestandsdaten laufen lassen * iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss * iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt * im letzter Zeit kam wieder Zug in die Enwicklung == Misc == * Blockchain = dezentrales Vertrauen in Prüfsummen * erasure coding auf Tape in Arbeit * alles über 1TB ist unhandlich * UrMEL ist das User-Interface, sucht mit elasticSearch * für Metadaten gibt es keine Credits * Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea * UFZ: der halbe Dublin Core muss ausgefüllt werden * Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen * UFZ: generische Lösungen * Uni Leipzg: * hat AG Forschungsdaten * TU Dresden und Freiberg entwickeln opawa * nationale Forschungsdateninfrastruktur * verschiedene Domänen sind unterschiedlich weit * in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute * MPDCF, MPDL * baut etwas mit apache ticka, nutzt auch MPDL * Tool der MPDL will keiner nutzen * * == Skalierbare Object Store Software mit S3 für Disc u. Tape == * XtreemStore: Release Jan. 2020 * noch ca. 5 HSM-Systeme heute * GAM3 braucht keine Migration * XtreemStrore = Speciher * Trennung von Logik und realem Filesystem * XS verwaltet Daten * Unterstützung von Bändern ist zentral * Global Data Manager = GAM-Client * 2 Abstraktionsschichten * Wo gehen die Daten hin? * Zugang zu Daten * Global File Catalog (GFC) * = Katalog = Herzstück aller Verwaltungsfunktionen * bildet ein Filesystem nach * man kann dort auch externe Metadaten speichern * weiss alles, kann nichts tun * File System Manager (FSM) * entspricht GAM-Client * kann Continous Backup * FSM erscheint im April 2020 * Metadaten Management , Q3 2020 * mit diesen Metadaten kann eine Rules-Engine arbeiten * kann man mit der Hand eintragen * man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen * Man kann Metadaten verschlüsselt ablegen. * Synthetisches Filesystem * wird aus Infos im GFC gebaut * es wird ein virtuelles Filsystem aufgebut im User Space * Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal * LTO-Laufwerk schreibt selbst mit Redundan * oft kann man nach Defekt auf Band auch keine Daten mehr lesen * Software unter GPL * FUSE um von Kernel unabhängig zu werden * DSGVO: man muss nicht Löschen, sondern unerreichbar machen * eigentlich kein HSM mehr == Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin == * 185 Mitabeiter, 65 Labore * List of Shame, wenn gute wiss. Praxis nicht erfüllt wird * 120 Leute pro Jahr rein und raus * Bibliothekssoftware kann nicht mit großen Datenmengen umgehen * brauchbare Web-Content-SW gab es nicht * www.pangea.de = sehr gut * https://icatproject.org * RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de * Datenmenge < 1TB/a * HDF5 als Datenformat * Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet * eine Person legt Metadaten an * haben selbst einen Satz Attribute definiert * keine einheitliche Bezeichnung, daher großes Freitext-Feld * Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben * lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch * Entwicklung durch Scopeland sind 3x billiger als native Programmierung * GUI hat weniger als 100t€ gekostet * origin4 wird mit arciviert = Misc = * MPCDF archviert Docker-Container * rosetta als Kulturdatenarchivierungssoftwar