# Exported from Etherpad to MoinMoin ( https://github.com/smilix/ep_moinmoin_export ).
# tip: Use <
> or an extra blank line for a new line.
= Notizen zum Workshop Forschungsdatenarchivierung =
<>
für alle zum Mitmachen
== Kulturdatenarchivierung der Thüringer Hochschulen ==
* zu archivieren: Parkatlas in Gotha
* Uni Köln hat Software entwickelt
* SIP enthält payload + Metadaten
* beim Packen von SIP werden Metadaten abgefragt
* SIP = tar Format, nicht fehlertolerant
* SIP, AIP, DIP sollen populär sein
* für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch
* DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist
* Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core
* MyCoRe = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland
* ab SIP ist das Packet format-neutral
* HSM mit mehreren Standorten funktioniert nur mit dark fibre
== iRODS ==
* Was man in iRODS reinkippt, landet so auf Band
* iRODs kann man auch über Bestandsdaten laufen lassen
* iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss
* iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt
* im letzter Zeit kam wieder Zug in die Enwicklung
== Misc ==
* Blockchain = dezentrales Vertrauen in Prüfsummen
* erasure coding auf Tape in Arbeit
* alles über 1TB ist unhandlich
* UrMEL ist das User-Interface, sucht mit elasticSearch
* für Metadaten gibt es keine Credits
* Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea
* UFZ: der halbe Dublin Core muss ausgefüllt werden
* Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen
* UFZ: generische Lösungen
* Uni Leipzg:
* hat AG Forschungsdaten
* TU Dresden und Freiberg entwickeln opawa
* nationale Forschungsdateninfrastruktur
* verschiedene Domänen sind unterschiedlich weit
* in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute
*
MPDCF, MPDL
* baut etwas mit apache ticka, nutzt auch MPDL
* Tool der MPDL will keiner nutzen
*
*
== Skalierbare Object Store Software mit S3 für Disc u. Tape ==
* XtreemStore: Release Jan. 2020
* noch ca. 5 HSM-Systeme heute
* GAM3 braucht keine Migration
* XtreemStrore = Speciher
* Trennung von Logik und realem Filesystem
* XS verwaltet Daten
* Unterstützung von Bändern ist zentral
* Global Data Manager = GAM-Client
* 2 Abstraktionsschichten
* Wo gehen die Daten hin?
* Zugang zu Daten
* Global File Catalog (GFC)
* = Katalog = Herzstück aller Verwaltungsfunktionen
* bildet ein Filesystem nach
* man kann dort auch externe Metadaten speichern
* weiss alles, kann nichts tun
* File System Manager (FSM)
* entspricht GAM-Client
* kann Continous Backup
* FSM erscheint im April 2020
* Metadaten Management , Q3 2020
* mit diesen Metadaten kann eine Rules-Engine arbeiten
* kann man mit der Hand eintragen
* man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen
* Man kann Metadaten verschlüsselt ablegen.
* Synthetisches Filesystem
* wird aus Infos im GFC gebaut
* es wird ein virtuelles Filsystem aufgebut im User Space
* Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal
* LTO-Laufwerk schreibt selbst mit Redundan
* oft kann man nach Defekt auf Band auch keine Daten mehr lesen
* Software unter GPL
* FUSE um von Kernel unabhängig zu werden
* DSGVO: man muss nicht Löschen, sondern unerreichbar machen
* eigentlich kein HSM mehr
== Vorstellung des Forschungsdaten-Managementsystems
am Max-Born-Institut, Berlin ==
* 185 Mitabeiter, 65 Labore
* List of Shame, wenn gute wiss. Praxis nicht erfüllt wird
* 120 Leute pro Jahr rein und raus
* Bibliothekssoftware kann nicht mit großen Datenmengen umgehen
* brauchbare Web-Content-SW gab es nicht
* www.pangea.de = sehr gut
* https://icatproject.org
* RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: https://www.radar-service.eu/de
* Datenmenge < 1TB/a
* HDF5 als Datenformat
* Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet
* eine Person legt Metadaten an
* haben selbst einen Satz Attribute definiert
* keine einheitliche Bezeichnung, daher großes Freitext-Feld
* Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben
* lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch
* Entwicklung durch Scopeland sind 3x billiger als native Programmierung
* GUI hat weniger als 100t€ gekostet
* origin4 wird mit arciviert
= Misc =
* MPCDF archviert Docker-Container
* rosetta als Kulturdatenarchivierungssoftwar