Unterschiede zwischen den Revisionen 3 und 9 (über 6 Versionen hinweg)

Papierloses Büro

Gedanken zur Realisierung eines papierlosen Büros

Architektur, Workflow

Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
- Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
Die Scans werden in ein anderes lokales Verzeichnis kopiert, in dem folgende Bearbeitungsschritte erfolgen:
- ggfs. Reduzierung der Auflösung und der Farben mit ImageMagick
- Entfernung von Artefakten (Dreck)
- Entfernung von leeren Seiten
- OCR
- Erzeugung von PDF/A
- Indexierung
Die Dokumente (PDF/A) und ihr Index werden in ein OwnCloud-Verzeichnis bei der GWDG (final) synchronisiert.
Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
inotify meldet einen neuen File und stößt nächsten Schritt an.
Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.

Scannen

Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner

Raspberry Pi und Dokumentenarchivierung
Raspberry Pi und SANE als Netzwerkscanner im Einsatz]
Raspberry-Server für Duplex-Dokumentenscanner]
Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]
Fujitsu ScanSnap iX500] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch HIER.
Herr Breinlinger bietet Support für seine Lösung an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler.

Nachbearbeitung der Scans

unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.
unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle

OCR

tesseract-ocr
- beste Lösung für automatisierten Betrieb
- wird von Google genutzt (z.B. fürGoogle Books) und gepflegt

Erkanntes in PDF integrieren

mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.
OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen.

Erkanntes indexieren

Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI

recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
ggfs. 1x/h incrementelle Indexierung anstoßen

offene Fragen:

Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.

Siehe auch

Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.

Anmerkungen, Anregungen

Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite

PaperlessOffice (zuletzt geändert am 2018-09-12 13:16:17 durch thenmarkus@cbs.mpg.de)

-  ⇤ ← Revision 3 vom 2017-05-17 12:24:13 → 
  Größe: 4125
  Autor: korsawe@cbs.mpg.de
  Kommentar:
+   ← Revision 9 vom 2017-06-21 11:25:24 → ⇥
  Größe: 5116
  Autor: hayd@cbs.mpg.de
  Kommentar:
-Gelöschter Text ist auf diese Art markiert.
+Hinzugefügter Text ist auf diese Art markiert.
 Zeile 9:
-== Architektur ==
+== Architektur, Workflow ==
 Zeile 11:
+{{attachment:paperless.png||width=75%}}


 * Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt. 
  * Da dieser Schritt  aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
 * Die Scans werden in ein anderes lokales Verzeichnis kopiert, in dem folgende Bearbeitungsschritte erfolgen:
  * ggfs. Reduzierung der Auflösung und der Farben mit [[https://wiki.ubuntuusers.de/ImageMagick/|ImageMagick]]
  * Entfernung von Artefakten (Dreck)
  * Entfernung von leeren Seiten
  * OCR
  * Erzeugung von PDF/A
  * Indexierung
 * Die Dokumente (PDF/A) und ihr Index werden in ein OwnCloud-Verzeichnis bei der GWDG (final) synchronisiert.

 * Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
-Zeile 12:
+Zeile 28:
- * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage.
 * Diese 3-er-Gruppe gibt es für jede Nutzergruppe.
-Zeile 15:
+Zeile 29:
+ * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
-Zeile 20:
+Zeile 34:
-Einscannen mit Raspberry Pi und Scanner
+Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner
-Zeile 25:
+Zeile 39:
- * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]] - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/][HIER]].
+ * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]]
 * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix !XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/|HIER]].
    * Herr Breinlinger bietet Support für [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|seine Lösung]] an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler.
-Zeile 27:
+Zeile 44:
- * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner
  

== Ablegen ==

 * in  ownCloud-Ordnern
 * Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Es gibt verschiedene Ordner:
      * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche
      * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben
      * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert
 * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette.

== Konvertieren ==

[[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken.
 Zeile 50:
+ * unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. [[https://www.imagemagick.org/script/command-line-options.php#despeckle|despeckle]]
-Zeile 57:
+Zeile 58:
+  * beste Lösung für automatisierten Betrieb
  * wird von [[https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html|Google]] genutzt (z.B. für[[https://books.google.de/|Google Books]]) und gepflegt
-Zeile 67:
+Zeile 70:
-[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von   [[https://github.com/koniu/recoll-webui|Recoll WebUI]]]
+[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von   [[https://github.com/koniu/recoll-webui|Recoll WebUI]]
-Zeile 76:
+Zeile 79:
+== Siehe auch ==

 * [[https://wiki.ubuntuusers.de/Paperwork|Paperwork]] ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.

Quick Links

Search Wiki

Page Tools