<?xml version="1.0" encoding="utf-8"?><!DOCTYPE article  PUBLIC '-//OASIS//DTD DocBook XML V4.4//EN'  'http://www.docbook.org/xml/4.4/docbookx.dtd'><article><articleinfo><title>ForschungsdatenArchivierung/Discussion</title><revhistory><revision><revnumber>10</revnumber><date>2021-05-19 07:13:33</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>9</revnumber><date>2019-11-29 08:03:33</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>8</revnumber><date>2019-11-26 14:29:07</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>7</revnumber><date>2019-11-26 14:20:04</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>6</revnumber><date>2019-11-26 14:19:51</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>5</revnumber><date>2019-11-26 10:38:29</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>4</revnumber><date>2019-11-26 09:22:05</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>3</revnumber><date>2019-11-25 09:58:52</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>2</revnumber><date>2019-11-25 09:57:30</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>1</revnumber><date>2019-11-25 09:55:29</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision></revhistory></articleinfo><section><title>Notizen zum Workshop Forschungsdatenarchivierung</title><para>für alle zum Mitmachen </para><section><title>Kulturdatenarchivierung der Thüringer Hochschulen</title><itemizedlist><listitem><para>zu archivieren: Parkatlas in Gotha </para></listitem><listitem><para>Uni Köln hat Software entwickelt </para></listitem><listitem><para>SIP enthält payload + Metadaten </para></listitem><listitem><para>beim Packen von SIP werden Metadaten abgefragt </para></listitem><listitem><para>SIP = tar Format, nicht fehlertolerant </para></listitem><listitem><para>SIP, AIP, DIP sollen populär sein </para></listitem><listitem><para>für Archivierung setzt sich eine Mischung aus Filesystem-Backend uns S3 durch </para></listitem><listitem><para>DNS Core rechnet viel, so dass 1TB/Tag nur schwer zu überschreiten ist </para></listitem><listitem><para>Content Broker weist ungültige Formate zurück, er ist Teil des DNS-Core </para></listitem><listitem><para><ulink url="https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion/IT4Science/MyCoRe#">MyCoRe</ulink> = Framework für Bau einer Präsentationsschicht und Ingest, aus Norddeutschland </para></listitem><listitem><para>ab SIP ist das Packet format-neutral </para></listitem><listitem><para>HSM mit mehreren Standorten funktioniert nur mit dark fibre </para></listitem></itemizedlist></section><section><title>iRODS</title><itemizedlist><listitem><para>Was man in iRODS reinkippt, landet so auf Band </para></listitem><listitem><para>iRODs kann man auch über Bestandsdaten laufen lassen </para></listitem><listitem><para>iRODS wird in einem Consortium entwickelt, in das man sich für viel Geld einkaufen muss </para></listitem><listitem><para>iRODs wird als Docker-Container mit Ubuntu 16.04 verteilt </para></listitem><listitem><para>im letzter Zeit kam wieder Zug in die Enwicklung </para></listitem></itemizedlist></section><section><title>Misc</title><itemizedlist><listitem><para>Blockchain = dezentrales Vertrauen in Prüfsummen </para></listitem><listitem><para>erasure coding auf Tape in Arbeit </para></listitem><listitem><para>alles über 1TB ist unhandlich </para></listitem><listitem><para>UrMEL ist das User-Interface, sucht mit elasticSearch </para></listitem><listitem><para>für Metadaten gibt es keine Credits </para></listitem><listitem><para>Geowissenschaftler in der Helmholtz haben Metadaten-Problem gelöst, pangea </para></listitem><listitem><para>UFZ: der halbe Dublin Core muss ausgefüllt werden </para></listitem><listitem><para>Metadaten sollte man automatisch erzeugen lassen am UFZ nachfragen </para></listitem><listitem><para>UFZ: generische Lösungen  </para></listitem><listitem><para>Uni Leipzg: </para><itemizedlist><listitem><para>hat AG Forschungsdaten </para></listitem><listitem><para>TU Dresden und Freiberg entwickeln opawa </para></listitem><listitem><para>nationale Forschungsdateninfrastruktur </para></listitem><listitem><para>verschiedene Domänen sind unterschiedlich weit </para></listitem><listitem><para>in Sozialwissenschaften gibt es bereits erstaunlich viele Attribute </para></listitem><listitem/></itemizedlist></listitem></itemizedlist><para>MPDCF, MPDL </para><itemizedlist><listitem><para>baut etwas mit apache ticka, nutzt auch MPDL </para></listitem><listitem><para>Tool der MPDL will keiner nutzen </para></listitem><listitem/><listitem/></itemizedlist></section><section><title>Skalierbare Object Store Software mit S3 für Disc u. Tape</title><itemizedlist><listitem><para><ulink url="https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion/IT4Science/XtreemStore#">XtreemStore</ulink>: Release Jan. 2020 </para></listitem><listitem><para>noch ca. 5 HSM-Systeme heute </para></listitem><listitem><para>GAM3 braucht keine Migration </para></listitem><listitem><para><ulink url="https://wiki.init.mpg.de/IT4Science/ForschungsdatenArchivierung/Discussion/IT4Science/XtreemStore#">XtreemStore</ulink> = Speicher </para><itemizedlist><listitem><para>Trennung von Logik und realem Filesystem </para></listitem><listitem><para>XS verwaltet Daten </para></listitem><listitem><para>Unterstützung von Bändern ist zentral </para></listitem><listitem><para>Global Data Manager = GAM-Client </para></listitem><listitem><para>2 Abstraktionsschichten </para><itemizedlist><listitem><para>Wo gehen die Daten hin? </para></listitem><listitem><para>Zugang zu Daten </para></listitem></itemizedlist></listitem></itemizedlist></listitem><listitem><para>Global File Catalog (GFC) </para><itemizedlist><listitem><para>= Katalog = Herzstück aller Verwaltungsfunktionen </para></listitem><listitem><para>bildet ein Filesystem nach </para></listitem><listitem><para>man kann dort auch externe Metadaten speichern </para></listitem><listitem><para>weiss alles, kann nichts tun </para></listitem></itemizedlist></listitem><listitem><para>File System Manager (FSM) </para><itemizedlist><listitem><para>entspricht GAM-Client </para></listitem><listitem><para>kann Continous Backup </para></listitem><listitem><para>FSM erscheint im April 2020 </para></listitem></itemizedlist></listitem><listitem><para>Metadaten Management , Q3 2020 </para><itemizedlist><listitem><para>mit diesen Metadaten kann  eine Rules-Engine arbeiten </para></listitem><listitem><para>kann man mit der Hand eintragen </para></listitem><listitem><para>man kann eigenen Programme zur Erzeugung, Extraktion von Metadaten anschließen </para></listitem><listitem><para>Man kann Metadaten verschlüsselt ablegen. </para></listitem></itemizedlist></listitem><listitem><para>Synthetisches Filesystem </para><itemizedlist><listitem><para>wird aus Infos im GFC  gebaut </para></listitem><listitem><para>es wird ein virtuelles Filsystem aufgebut im User Space </para></listitem></itemizedlist></listitem><listitem><para>Storage Abstraction Layer wiess nur dass es dauern kann, Medium ist egal </para></listitem><listitem><para>LTO-Laufwerk schreibt selbst mit Redundan </para></listitem><listitem><para>oft kann man nach Defekt auf Band auch keine Daten mehr lesen </para></listitem><listitem><para>Software unter GPL </para></listitem><listitem><para>FUSE um von Kernel unabhängig zu werden </para></listitem><listitem><para>DSGVO: man muss nicht Löschen, sondern unerreichbar machen </para></listitem><listitem><para>eigentlich kein HSM mehr </para></listitem></itemizedlist></section><section><title>Vorstellung des Forschungsdaten-Managementsystems am Max-Born-Institut, Berlin</title><itemizedlist><listitem><para>185 Mitabeiter, 65 Labore </para></listitem><listitem><para>List of Shame, wenn gute wiss. Praxis nicht erfüllt wird </para></listitem><listitem><para>120 Leute pro Jahr rein und raus </para></listitem><listitem><para>Bibliothekssoftware kann nicht mit großen Datenmengen umgehen </para></listitem><listitem><para>brauchbare Web-Content-SW gab es nicht </para></listitem><listitem><para>www.pangea.de = sehr gut </para></listitem><listitem><para><ulink url="https://icatproject.org"/> </para></listitem><listitem><para>RADAR-Projekt, am FIZ Karlsruhe von DFG gefördert: <ulink url="https://www.radar-service.eu/de"/> </para></listitem><listitem><para>Datenmenge &lt; 1TB/a </para></listitem><listitem><para>HDF5 als Datenformat </para></listitem><listitem><para>Daten ausgeschiedener Mitarbeiter werden 3a aufbewahrt und von IT-Abteilung verwaltet </para></listitem><listitem><para>eine Person legt Metadaten an </para></listitem><listitem><para>haben selbst einen Satz Attribute definiert </para></listitem><listitem><para>keine einheitliche Bezeichnung, daher großes Freitext-Feld </para></listitem><listitem><para>Metadaten werden als XML-Datei zusätzlich mit den Daten ins Archivgelegt und in eine DB geschrieben </para></listitem><listitem><para>lassen keine private Nutzung zu, daher vom Datenschutz her unkritisch </para></listitem><listitem><para>Entwicklung durch Scopeland sind 3x billiger als native Programmierung </para></listitem><listitem><para>GUI hat weniger als 100t€ gekostet </para></listitem><listitem><para>origin4 wird mit arciviert </para></listitem></itemizedlist></section></section><section><title>Misc</title><itemizedlist><listitem><para>MPCDF archviert Docker-Container </para></listitem><listitem><para>rosetta als Kulturdatenarchivierungssoftware </para></listitem><listitem><para>Nestor  </para></listitem></itemizedlist></section></article>