welcome: please sign in
location: Änderungen von "PaperlessOffice"
Unterschiede zwischen den Revisionen 7 und 12 (über 5 Versionen hinweg)
Revision 7 vom 2017-06-21 11:06:40
Größe: 5003
Kommentar:
Revision 12 vom 2017-06-22 10:43:08
Größe: 7105
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 1: Zeile 1:
#acl hayd@cbs.mpg.de:read,write,delete,revert,admin Known:read,write All:read
Zeile 7: Zeile 8:
Gedanken zur Realisierung eines papierlosen Büros Konzept zur Realisierung eines papierlosen Büros
Zeile 9: Zeile 10:
== Architektur == == Architektur, Workflow ==
Zeile 12: Zeile 13:
{{attachment:paperless.png||width=95%}} {{attachment:paperless.png||width=75%}}
Zeile 14: Zeile 15:
 * Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage.
 * Diese 3-er-Gruppe gibt es für jede Nutzergruppe.

 * Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
  * Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
 * Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
  * ggfs. Reduzierung der Auflösung und der Farben mit [[https://wiki.ubuntuusers.de/ImageMagick/|ImageMagick]]
  * Entfernung von Artefakten (Dreck)
  * Entfernung von leeren Seiten
  * OCR
  * Erzeugung von PDF/A
  * Indexierung
 * Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.

 * Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
Zeile 18: Zeile 29:
 * Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
 * Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.
Zeile 23: Zeile 35:
Einscannen mit Raspberry Pi und Scanner Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner
Zeile 33: Zeile 45:


== Ablegen ==

 * in ownCloud-Ordnern
 * Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Es gibt verschiedene Ordner:
      * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche
      * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben
      * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert
 * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette.

== Konvertieren ==

[[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken.
Zeile 69: Zeile 66:
 * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen.  * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung. [[https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html|positiv getestet]]

siehe auch:
 * [[http://www.slub-dresden.de/ueber-uns/slubarchiv/technische-standards-fuer-die-ablieferung-von-digitalen-dokumenten/langzeitarchivfaehige-dateiformate/|Langzeitarchivfähige Dateiformate]]
 * [[http://www.slub-dresden.de/service/pflichtmedien-abliefern/technische-standards-fuer-die-ablieferung-von-netzpublikationen/|Technische Standards für die Ablieferung von Netzpublikationen]] - u.a. Tipps zur Erstellung PDF/A-konformer Dateien
 * freier [[http://www.linux-magazin.de/NEWS/PDF-A-Validator-Vera-PDF-in-Version-1.0|PDF/A-Validator Vera PDF]] - bietet [[http://verapdf.org/software/|Installer]] für Linux
 * [[https://de.wikipedia.org/wiki/JHOVE|JHOVE]] - in Projekt, um ein erweiterbares Tool zur Formatvalidierung zu entwickeln

Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.
Zeile 80: Zeile 85:
 * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.  * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.
Zeile 88: Zeile 93:
== Offene Fragen ==

 * Scannen
  * Welche Scanner verwenden?
  * Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
  * Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
  * In welchem Format sollen diese Rohdaten archiviert werden?
  * Wie kann man einen [[https://tutorials-raspberrypi.de/testbericht-zum-7-raspberry-pi-touchscreen-display/|RPi mit LCP-Display]] zur Steuerung des Scanners, der an einem Ubuntu-PC hängt, nutzen?

 * Post-Processing der Scans
  * Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
   * Geraderücken
   * Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
   * Falten, Dreck, Grauschleier entfernen

Papierloses Büro

Konzept zur Realisierung eines papierlosen Büros

Architektur, Workflow

paperless.png

  • Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
    • Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
  • Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
    • ggfs. Reduzierung der Auflösung und der Farben mit ImageMagick

    • Entfernung von Artefakten (Dreck)
    • Entfernung von leeren Seiten
    • OCR
    • Erzeugung von PDF/A
    • Indexierung
  • Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.
  • Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
  • inotify meldet einen neuen File und stößt nächsten Schritt an.

  • Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
  • Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.

Scannen

Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner

Nachbearbeitung der Scans

  • unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.

  • unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle

OCR

Erkanntes in PDF integrieren

  • mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.

  • OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung. positiv getestet

siehe auch:

Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.

Erkanntes indexieren

Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI

  • recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
  • indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
  • ggfs. 1x/h incrementelle Indexierung anstoßen

offene Fragen:

  • Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.

Siehe auch

  • Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.

Offene Fragen

  • Scannen
    • Welche Scanner verwenden?
    • Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
    • Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
    • In welchem Format sollen diese Rohdaten archiviert werden?
    • Wie kann man einen RPi mit LCP-Display zur Steuerung des Scanners, der an einem Ubuntu-PC hängt, nutzen?

  • Post-Processing der Scans
    • Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
      • Geraderücken
      • Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
      • Falten, Dreck, Grauschleier entfernen

Anmerkungen, Anregungen

Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite

PaperlessOffice (zuletzt geändert am 2018-09-12 13:16:17 durch thenmarkus@cbs.mpg.de)