<?xml version="1.0" encoding="utf-8"?><!DOCTYPE article  PUBLIC '-//OASIS//DTD DocBook XML V4.4//EN'  'http://www.docbook.org/xml/4.4/docbookx.dtd'><article><articleinfo><title>PaperlessOffice</title><revhistory><revision><revnumber>27</revnumber><date>2018-09-12 13:16:17</date><authorinitials>thenmarkus@cbs.mpg.de</authorinitials></revision><revision><revnumber>26</revnumber><date>2017-08-03 07:48:32</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>25</revnumber><date>2017-08-02 10:29:54</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>24</revnumber><date>2017-07-17 14:46:39</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>23</revnumber><date>2017-07-17 14:06:44</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>22</revnumber><date>2017-07-17 11:44:14</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>21</revnumber><date>2017-07-11 14:17:51</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>20</revnumber><date>2017-07-11 12:04:16</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>19</revnumber><date>2017-07-11 11:44:02</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>18</revnumber><date>2017-07-06 07:06:21</date><authorinitials>thenmarkus@cbs.mpg.de</authorinitials></revision><revision><revnumber>17</revnumber><date>2017-07-03 10:36:54</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>16</revnumber><date>2017-06-28 14:28:31</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>15</revnumber><date>2017-06-28 06:56:57</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>14</revnumber><date>2017-06-22 11:04:39</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>13</revnumber><date>2017-06-22 10:47:29</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>12</revnumber><date>2017-06-22 10:43:08</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>11</revnumber><date>2017-06-21 14:19:22</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>10</revnumber><date>2017-06-21 13:30:13</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>9</revnumber><date>2017-06-21 11:25:24</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>8</revnumber><date>2017-06-21 11:07:07</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>7</revnumber><date>2017-06-21 11:06:40</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>6</revnumber><date>2017-05-25 08:35:22</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>5</revnumber><date>2017-05-24 13:20:18</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision><revision><revnumber>4</revnumber><date>2017-05-17 12:25:16</date><authorinitials>korsawe@cbs.mpg.de</authorinitials></revision><revision><revnumber>3</revnumber><date>2017-05-17 12:24:13</date><authorinitials>korsawe@cbs.mpg.de</authorinitials></revision><revision><revnumber>2</revnumber><date>2017-05-17 12:23:44</date><authorinitials>korsawe@cbs.mpg.de</authorinitials></revision><revision><revnumber>1</revnumber><date>2017-05-17 11:50:19</date><authorinitials>hayd@cbs.mpg.de</authorinitials></revision></revhistory></articleinfo><section><title>Papierloses Büro</title><para>Konzept zur Realisierung eines papierlosen Büros </para><section><title>Architektur, Workflow</title><para><inlinemediaobject><imageobject><imagedata fileref="https://wiki.init.mpg.de/IT4Science/PaperlessOffice?action=AttachFile&amp;do=get&amp;target=paperless.png" width="75%"/></imageobject><textobject><phrase>paperless.png</phrase></textobject></inlinemediaobject> </para><itemizedlist><listitem><para>Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.  </para><itemizedlist><listitem><para>Da dieser Schritt  aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen. </para></listitem></itemizedlist></listitem><listitem><para>Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen: </para><itemizedlist><listitem><para>ggfs. Reduzierung der Auflösung und der Farben mit <ulink url="https://wiki.ubuntuusers.de/ImageMagick/">ImageMagick</ulink> </para></listitem><listitem><para>Entfernung von Artefakten (Dreck) </para></listitem><listitem><para>Entfernung von leeren Seiten </para></listitem><listitem><para>OCR </para></listitem><listitem><para>Erzeugung von PDF/A </para></listitem><listitem><para>Indexierung </para></listitem></itemizedlist></listitem><listitem><para>Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert. </para></listitem><listitem><para>Man sucht und betrachtet die Dokumente per Web-Interface in &quot;final&quot;. Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren. </para></listitem><listitem><para><ulink url="https://wiki.ubuntuusers.de/inotify/">inotify</ulink> meldet einen neuen File und stößt nächsten Schritt an. </para></listitem><listitem><para>Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette. </para></listitem><listitem><para>Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt. </para></listitem></itemizedlist></section><section><title>Scannen</title><para>Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner </para><itemizedlist><listitem><para><ulink url="https://thomasheinz.net/mit-einem-tastdruck-scannen-raspberry-pi-und-dokumentenarchivierung/">Raspberry Pi und Dokumentenarchivierung</ulink> </para></listitem><listitem><para><ulink url="http://krausix.de/raspberry-sane-netzwerkscanner/">Raspberry Pi und SANE als Netzwerkscanner im Einsatz</ulink> </para></listitem><listitem><para><ulink url="https://www.drbreinlinger.de/Scanserver/Scanserver.htm">Raspberry-Server für Duplex-Dokumentenscanner</ulink> </para></listitem><listitem><para><ulink url="http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/">Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen</ulink> </para></listitem><listitem><para><ulink url="https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html">Fujitsu ScanSnap iX500</ulink> - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch <ulink url="http://www.scansnapcommunity.net/de/tag/twain/">HIER</ulink>. </para></listitem><listitem><para>Herr Breinlinger bietet Support für <ulink url="https://www.drbreinlinger.de/Scanserver/Scanserver.htm">seine Lösung</ulink> an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler. </para></listitem></itemizedlist></section><section><title>Nachbearbeitung der Scans</title><itemizedlist><listitem><para><ulink url="https://wiki.ubuntuusers.de/unpaper/">unpaper</ulink> (<ulink url="https://www.flameeyes.eu/projects/unpaper">home</ulink>) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen. </para></listitem><listitem><para>unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. <ulink url="https://www.imagemagick.org/script/command-line-options.php#despeckle">despeckle</ulink> </para></listitem></itemizedlist></section><section><title>OCR</title><itemizedlist><listitem><para><ulink url="https://wiki.ubuntuusers.de/tesseract-ocr/">tesseract-ocr</ulink> </para><itemizedlist><listitem><para>beste Lösung für automatisierten Betrieb </para></listitem><listitem><para>wird von <ulink url="https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html">Google</ulink> genutzt (z.B. für<ulink url="https://books.google.de/">Google Books</ulink>) und gepflegt </para></listitem></itemizedlist></listitem></itemizedlist></section><section><title>Erkanntes in PDF integrieren</title><itemizedlist><listitem><para>mit PDF/A-1a –<!--RAW HTML: &#8211;--> Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann. </para></listitem><listitem><para><ulink url="https://wiki.ubuntuusers.de/OCRmyPDF/">OCRmyPDF</ulink> - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung.  </para><itemizedlist><listitem><para><ulink url="https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html">positiv getestet</ulink> </para></listitem><listitem><para><ulink url="https://ocrmypdf.readthedocs.io/en/latest/index.html">Doku</ulink> </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://wiki.ubuntuusers.de/ExactImage/#hocr2pdf">hocr2pdf</ulink> - hocr2pdf kann aus <ulink url="https://de.wikipedia.org/wiki/HOCR_(Standard)">hOCR-Seiten</ulink>(informationsreiches HTML-Format, welches u.a. Tesseract ab Version 3.0x liefert) und der dazugehörigen Bilddatei eine durchsuchbare PDF-Datei zu erstellen. </para></listitem></itemizedlist></section><section><title>Validierung des PDF/A</title><para>Welches PDF/A?  </para><itemizedlist><listitem><para>PDF/A-1b und PDF/A-2b </para><itemizedlist><listitem><para>b = basic: Es steht die visuelle Integrität im Mittelpunkt. </para></listitem></itemizedlist></listitem><listitem><para>PDF/A-2a </para><itemizedlist><listitem><para>a = advanced oder accessible </para></listitem><listitem><para>Enthalten sind weitere Merkmale:  Strukturinformationen etwa zu Absätzen, Überschriften oder Spalten; semantische Informationen, die mithilfe von Unicode ein problemloses Copy&amp;Paste aus  und eine korrekte Textsuche ermöglichen; Lesefluss, Reflow,  voll barrierefreier Zugang </para></listitem></itemizedlist></listitem><listitem><para>PDF/A-2u </para><itemizedlist><listitem><para>u = Unicode </para></listitem><listitem><para>a ohne Strukturinfos oder b mit Unicode </para></listitem><listitem><para>Suchen und Kopieren von Text möglich </para></listitem><listitem><para>Empfehlung für gescannte Dokumente mit OCR! </para></listitem></itemizedlist></listitem></itemizedlist><para>Also PDF/A-2u (oder PDF/A-2a). </para><para>Man sollte daher <ulink url="http://www.slub-dresden.de/ueber-uns/slubarchiv/technische-standards-fuer-die-ablieferung-von-digitalen-dokumenten/langzeitarchivfaehige-dateiformate/">langzeitarchivfähige Dateiformate</ulink> einsetzen - am besten <ulink url="http://www.slub-dresden.de/fileadmin/groups/slubsite/Service/PDF_Service/Einf%C3%BChrende_Informationen_zum_PDFA-Standard.pdf">PDF/A-2u oder PDF/A-2a</ulink>. </para><para>Wenn das PDF/A nicht dem <ulink url="http://www.slub-dresden.de/service/pflichtmedien-abliefern/technische-standards-fuer-die-ablieferung-von-netzpublikationen/">Standard</ulink> entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind. </para><para>Mit einem PDF/A-Validator sollte man daher überprüfen, ob es sich wirklich um ein standardkonformes PDF/A handelt: </para><itemizedlist><listitem><para><ulink url="https://de.wikipedia.org/wiki/JHOVE">Jhove:</ulink>  &quot;Für  die  Validierung  von  PDF/A-Dateien  ist  es  <ulink url="http://www.slub-dresden.de/fileadmin/groups/slubsite/Service/PDF_Service/Einf%C3%BChrende_Informationen_zum_PDFA-Standard.pdf">nicht  wirklich  geeignet</ulink>&quot; </para></listitem><listitem><para>Man verwende daher veraPDF: </para><itemizedlist><listitem><para>Bericht im <ulink url="http://www.linux-magazin.de/NEWS/PDF-A-Validator-Vera-PDF-in-Version-1.0">Linux-Magazin, 12.1.2017</ulink> </para></listitem><listitem><para><ulink url="http://verapdf.org/2017/01/10/verapdf-1-0-released/">veraPDF</ulink> ist ein freier Validator für PDF/A </para></listitem><listitem><para><ulink url="http://verapdf.org/software/">Download</ulink>  </para></listitem></itemizedlist></listitem></itemizedlist></section><section><title>Erkanntes indexieren</title><para><ulink url="https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html">Volltextsuche mit Recoll</ulink> - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von   <ulink url="https://github.com/koniu/recoll-webui">Recoll WebUI</ulink> </para><itemizedlist><listitem><para>recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.  </para></listitem><listitem><para>indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ... </para></listitem><listitem><para>ggfs. 1x/h incrementelle Indexierung anstoßen </para></listitem></itemizedlist><para>offene Fragen: </para><itemizedlist><listitem><para>Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen. </para></listitem></itemizedlist></section><section><title>Misc</title><para>Präferierte Hardware: </para><itemizedlist><listitem><para><ulink url="http://www.fujitsu.com/de/products/computing/peripheral/scanners/scansnap/ix500/">FUJITSU ScanSnap iX500</ulink> als Scanner </para></listitem><listitem><para>Odroid C2 als Steuerungsrechner </para></listitem></itemizedlist></section><section><title>Odroid zur Bedienung des Scanners</title><itemizedlist><listitem><para><ulink url="https://www.pollin.de/p/odroid-c2-einplatinen-computer-1-5-ghz-quadcore-2-gb-ram-4x-usb-810491">Odroid C2</ulink> </para><itemizedlist><listitem><para>54,95 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://www.pollin.de/p/odroid-c2-c1-c0-8-89-cm-3-5-tft-display-mit-touchscreen-810756">3,5&quot; LCD Display</ulink> </para><itemizedlist><listitem><para>37,95 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://www.pollin.de/p/odroid-c1-c2-lcd-shield-gehaeuse-rauch-blau-810812">Gehäuse für Odroid C2 mit Display</ulink> </para><itemizedlist><listitem><para>11,95 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://geizhals.de/sandisk-ultra-microsdhc-16gb-kit-sdsquar-016g-gn6ma-a1672322.html">Speicherkarte für Betriebssystem</ulink> </para><itemizedlist><listitem><para>7,00 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://www.reichelt.de/usb-2-0-kabel-easy-a-stecker-auf-micro-b-stecker-0-5-m-delock-83849-p162162.html?GROUPID=6099&amp;trstct=vrt_pdn&amp;&amp;r=1">gewinkeltes Stromkabel</ulink> </para><itemizedlist><listitem><para>5,94 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://www.reichelt.de/usb-2-0-kabel-a-stecker-auf-b-stecker-grau-0-5-m-gc-2510-05-p202184.html?GROUPID=6099&amp;trstct=vrt_pdn&amp;&amp;r=1">kurzes USB Kabel für Scanner</ulink> </para><itemizedlist><listitem><para>0,99 € </para></listitem></itemizedlist></listitem><listitem><para><ulink url="https://www.reichelt.de/usb-ladegeraet-5-v-2400-ma-navilock-62849-p199657.html?GROUPID=4924&amp;trstct=vrt_pdn&amp;&amp;r=1">Netzteil</ulink> </para><itemizedlist><listitem><para>11,40 € </para></listitem></itemizedlist></listitem><listitem><para>Hinweis: </para><itemizedlist><listitem><para>das Display wird direkt über die GPIOs vom Odroid mit Strom versorgt </para></listitem></itemizedlist></listitem></itemizedlist></section><section><title>Siehe auch</title><itemizedlist><listitem><para><ulink url="https://wiki.ubuntuusers.de/Paperwork">Paperwork</ulink> ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art. Das Programm befindet sich noch in einer frühen Entwicklungsphase. Es ist wohl eher für den Desktop (GUI) als für ein Netz geeignet. Wäre aber vielleicht für einen Check direkt nach dem Scannen geeignet. </para></listitem><listitem><para><ulink url="http://www.doc-forum.de/downloads/DocForum_Was_ist_PDFA-2_Heiermann.pdf">Was ist PDF/A-2?</ulink> </para></listitem><listitem><para><ulink url="https://de.wikipedia.org/wiki/Mixed_Raster_Content">MRC</ulink> </para></listitem><listitem><para><ulink url="https://de.wikipedia.org/wiki/JBIG2">JBIG2</ulink> </para></listitem><listitem><para><ulink url="https://wiki.init.mpg.de/IT4Science/PaperlessOffice/IT4Science/PaperlessOfficeAnforderungen#">PaperlessOfficeAnforderungen</ulink> </para></listitem><listitem><para><ulink url="https://wiki.init.mpg.de/IT4Science/PaperlessOffice/IT4Science/Abbyy4Linux#">Abbyy4Linux</ulink> </para></listitem></itemizedlist></section><section><title>Offene Fragen</title><itemizedlist><listitem><para>Scannen </para><itemizedlist><listitem><para>Welche Scanner verwenden? </para></listitem><listitem><para>Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden. </para></listitem><listitem><para>Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden. </para></listitem><listitem><para>In welchem Format sollen diese Rohdaten archiviert werden? </para></listitem><listitem><para>Wie kann man einen <ulink url="https://tutorials-raspberrypi.de/testbericht-zum-7-raspberry-pi-touchscreen-display/">RPi mit LCP-Display</ulink> (oder <ulink url="https://www.amazon.de/Quimat-Aufl%C3%B6sung-Interface-Raspberry-QSC06/dp/B06X191RX7/ref=sr_1_2?ie=UTF8&amp;qid=1498129225&amp;sr=8-2&amp;keywords=Raspberry+Pi+Touch-Display">diesem</ulink> Display) zur Steuerung des Scanners nutzen? Die Daten sollen dann vom RPi auf einen Ubuntu-Server zur Weiterverarbeitung übertragen werden. </para></listitem></itemizedlist></listitem><listitem><para>Post-Processing der Scans </para><itemizedlist><listitem><para>Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing: </para><itemizedlist><listitem><para>Geraderücken </para></listitem><listitem><para>Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde </para></listitem><listitem><para>Falten, Dreck, Grauschleier entfernen </para></listitem></itemizedlist></listitem></itemizedlist></listitem></itemizedlist></section><section><title>Anmerkungen, Anregungen</title><para>Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der <ulink url="https://wiki.init.mpg.de/IT4Science/PaperlessOffice/IT4Science/PaperlessOffice/Discussion#">Diskussionsseite</ulink> </para></section></section></article>