#pragma supplementation-page on = Papierloses Büro = Gedanken zur Realisierung eines papierlosen Büros == Architektur == * Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu. * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage. * Diese 3-er-Gruppe gibt es für jede Nutzergruppe. * [[https://wiki.ubuntuusers.de/inotify/|inotify]] meldet einen neuen File und stößt nächsten Schritt an. == Scannen == Einscannen mit Raspberry Pi und Scanner * [[https://thomasheinz.net/mit-einem-tastdruck-scannen-raspberry-pi-und-dokumentenarchivierung/|Raspberry Pi und Dokumentenarchivierung]] * [[http://krausix.de/raspberry-sane-netzwerkscanner/|Raspberry Pi und SANE als Netzwerkscanner im Einsatz]]] * [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|Raspberry-Server für Duplex-Dokumentenscanner]]] * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]] - Hier bitte beachten, das der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/][HIER]]. * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner == Ablegen == * in ownCloud-Ordnern * Alles Tools, Server und Nutzer greifen auf diese Ordner zu. * Es gibt verschiedene Ordner: * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette. == Konvertieren == [[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken. == Nachbearbeitung der Scans == * [[https://wiki.ubuntuusers.de/unpaper/|unpaper]] ([[https://www.flameeyes.eu/projects/unpaper|home]]) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen. == OCR == * [[https://wiki.ubuntuusers.de/tesseract-ocr/|tesseract-ocr]] == Erkanntes in PDF integrieren == * mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann. * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. == Erkanntes indexieren == [[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]] * recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser. * indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ... * ggfs. 1x/h incrementelle Indexierung anstoßen offene Fragen: * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen. == Anmerkungen, Anregungen == Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der [[/Discussion|Diskussionsseite]]