#pragma supplementation-page on

= Papierloses Büro =



Gedanken zur Realisierung eines papierlosen Büros

== Architektur ==

 * Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage.
 * Diese 3-er-Gruppe gibt es für jede Nutzergruppe.
 * [[https://wiki.ubuntuusers.de/inotify/|inotify]] meldet einen neuen File und stößt nächsten Schritt an.



== Scannen ==

Einscannen mit Raspberry Pi und Scanner

 * [[https://thomasheinz.net/mit-einem-tastdruck-scannen-raspberry-pi-und-dokumentenarchivierung/|Raspberry Pi und Dokumentenarchivierung]]
 * [[http://krausix.de/raspberry-sane-netzwerkscanner/|Raspberry Pi und SANE als Netzwerkscanner im Einsatz]]]
 * [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|Raspberry-Server für Duplex-Dokumentenscanner]]]
 * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]] - Hier bitte beachten, das der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/][HIER]].


 * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner
  

== Ablegen ==

 * in  ownCloud-Ordnern
 * Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Es gibt verschiedene Ordner:
      * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche
      * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben
      * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert
 * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette.

== Konvertieren ==

[[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken.



== Nachbearbeitung der Scans ==

 * [[https://wiki.ubuntuusers.de/unpaper/|unpaper]] ([[https://www.flameeyes.eu/projects/unpaper|home]]) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.




== OCR ==

 * [[https://wiki.ubuntuusers.de/tesseract-ocr/|tesseract-ocr]]


== Erkanntes in PDF integrieren ==

 * mit PDF/A-1a &#8211; Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.
 * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen.


== Erkanntes indexieren ==

[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von   [[https://github.com/koniu/recoll-webui|Recoll WebUI]]]
 * recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser. 
 * indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
 * ggfs. 1x/h incrementelle Indexierung anstoßen

offene Fragen:
 * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.





== Anmerkungen, Anregungen ==
Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der [[/Discussion|Diskussionsseite]]