Papierloses Büro
Konzept zur Realisierung eines papierlosen Büros
Inhaltsverzeichnis
Architektur, Workflow
- Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
- Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
- Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
ggfs. Reduzierung der Auflösung und der Farben mit ImageMagick
- Entfernung von Artefakten (Dreck)
- Entfernung von leeren Seiten
- OCR
- Erzeugung von PDF/A
- Indexierung
- Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.
- Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
inotify meldet einen neuen File und stößt nächsten Schritt an.
- Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
- Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.
Scannen
Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner
Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]
Fujitsu ScanSnap iX500] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch HIER.
Herr Breinlinger bietet Support für seine Lösung an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler.
Nachbearbeitung der Scans
unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.
unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle
OCR
- beste Lösung für automatisierten Betrieb
wird von Google genutzt (z.B. fürGoogle Books) und gepflegt
Erkanntes in PDF integrieren
mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.
OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung. positiv getestet
siehe auch:
Technische Standards für die Ablieferung von Netzpublikationen - u.a. Tipps zur Erstellung PDF/A-konformer Dateien
freier PDF/A-Validator Vera PDF - bietet Installer für Linux
JHOVE - in Projekt, um ein erweiterbares Tool zur Formatvalidierung zu entwickeln
Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.
Erkanntes indexieren
Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI
- recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
- indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
- ggfs. 1x/h incrementelle Indexierung anstoßen
offene Fragen:
- Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.
Misc
Präferierte Hardware:
FUJITSU ScanSnap iX500 als Scanner
- Raspberry Pi als Steuerungsrechner
Siehe auch
Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.
Offene Fragen
- Scannen
- Welche Scanner verwenden?
- Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
- Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
- In welchem Format sollen diese Rohdaten archiviert werden?
Wie kann man einen RPi mit LCP-Display (oder diesem Display) zur Steuerung des Scanners, der an einem Ubuntu-PC hängt, nutzen?
- Post-Processing der Scans
- Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
- Geraderücken
- Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
- Falten, Dreck, Grauschleier entfernen
- Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
Anmerkungen, Anregungen
Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite