welcome: please sign in
location: Änderungen von "PaperlessOffice"
Unterschiede zwischen den Revisionen 5 und 27 (über 22 Versionen hinweg)
Revision 5 vom 2017-05-24 13:20:18
Größe: 4769
Kommentar:
Revision 27 vom 2018-09-12 13:16:17
Größe: 10732
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 1: Zeile 1:
#acl hayd@cbs.mpg.de:read,write,delete,revert,admin Known:read,write All:read
Zeile 6: Zeile 7:
Konzept zur Realisierung eines papierlosen Büros
Zeile 7: Zeile 9:
Gedanken zur Realisierung eines papierlosen Büros <<TableOfContents(3)>>
Zeile 9: Zeile 11:
== Architektur ==
Zeile 11: Zeile 12:
 * Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage.
 * Diese 3-er-Gruppe gibt es für jede Nutzergruppe.
== Architektur, Workflow ==


{{attachment:paperless.png||width=75%}}


 * Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
  * Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
 * Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
  * ggfs. Reduzierung der Auflösung und der Farben mit [[https://wiki.ubuntuusers.de/ImageMagick/|ImageMagick]]
  * Entfernung von Artefakten (Dreck)
  * Entfernung von leeren Seiten
  * OCR
  * Erzeugung von PDF/A
  * Indexierung
 * Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.

 * Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
Zeile 15: Zeile 31:
 * Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
 * Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.
Zeile 20: Zeile 37:
Einscannen mit Raspberry Pi und Scanner Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner
Zeile 23: Zeile 40:
 * [[http://krausix.de/raspberry-sane-netzwerkscanner/|Raspberry Pi und SANE als Netzwerkscanner im Einsatz]]]
 * [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|Raspberry-Server für Duplex-Dokumentenscanner]]]
 * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]]
 * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix !XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/|HIER]].
 * [[http://krausix.de/raspberry-sane-netzwerkscanner/|Raspberry Pi und SANE als Netzwerkscanner im Einsatz]]
 * [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|Raspberry-Server für Duplex-Dokumentenscanner]]
 * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]
 * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix !XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/|HIER]].
Zeile 30: Zeile 47:


== Ablegen ==

 * in ownCloud-Ordnern
 * Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
 * Es gibt verschiedene Ordner:
      * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche
      * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben
      * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert
 * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette.

== Konvertieren ==

[[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken.
Zeile 66: Zeile 68:
 * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen.  * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung.
  * [[https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html|positiv getestet]]
  * [[https://ocrmypdf.readthedocs.io/en/latest/index.html|Doku]]
 * [[https://wiki.ubuntuusers.de/ExactImage/#hocr2pdf|hocr2pdf]] - hocr2pdf kann aus [[https://de.wikipedia.org/wiki/HOCR_(Standard)|hOCR-Seiten]](informationsreiches HTML-Format, welches u.a. Tesseract ab Version 3.0x liefert) und der dazugehörigen Bilddatei eine durchsuchbare PDF-Datei zu erstellen.


== Validierung des PDF/A ==


Welches PDF/A?

 * PDF/A-1b und PDF/A-2b
  * b = basic: Es steht die visuelle Integrität im Mittelpunkt.
 * PDF/A-2a
  * a = advanced oder accessible
  * Enthalten sind weitere Merkmale: Strukturinformationen etwa zu Absätzen, Überschriften oder Spalten; semantische Informationen, die mithilfe von Unicode ein problemloses Copy&Paste aus und eine korrekte Textsuche ermöglichen; Lesefluss, Reflow, voll barrierefreier Zugang
 * PDF/A-2u
  * u = Unicode
  * a ohne Strukturinfos oder b mit Unicode
  * Suchen und Kopieren von Text möglich
  * Empfehlung für gescannte Dokumente mit OCR!

Also PDF/A-2u (oder PDF/A-2a).


Man sollte daher [[http://www.slub-dresden.de/ueber-uns/slubarchiv/technische-standards-fuer-die-ablieferung-von-digitalen-dokumenten/langzeitarchivfaehige-dateiformate/|langzeitarchivfähige Dateiformate]] einsetzen - am besten [[http://www.slub-dresden.de/fileadmin/groups/slubsite/Service/PDF_Service/Einf%C3%BChrende_Informationen_zum_PDFA-Standard.pdf|PDF/A-2u oder PDF/A-2a]].

Wenn das PDF/A nicht dem [[http://www.slub-dresden.de/service/pflichtmedien-abliefern/technische-standards-fuer-die-ablieferung-von-netzpublikationen/|Standard]] entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.

Mit einem PDF/A-Validator sollte man daher überprüfen, ob es sich wirklich um ein standardkonformes PDF/A handelt:
 * [[https://de.wikipedia.org/wiki/JHOVE|Jhove:]] "Für die Validierung von PDF/A-Dateien ist es [[http://www.slub-dresden.de/fileadmin/groups/slubsite/Service/PDF_Service/Einf%C3%BChrende_Informationen_zum_PDFA-Standard.pdf|nicht wirklich geeignet]]"
 * Man verwende daher veraPDF:
  * Bericht im [[http://www.linux-magazin.de/NEWS/PDF-A-Validator-Vera-PDF-in-Version-1.0|Linux-Magazin, 12.1.2017]]
  * [[http://verapdf.org/2017/01/10/verapdf-1-0-released/|veraPDF]] ist ein freier Validator für PDF/A
  * [[http://verapdf.org/software/|Download]]
Zeile 71: Zeile 108:
[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]] [[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]
Zeile 77: Zeile 114:
 * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.  * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.
Zeile 80: Zeile 117:
== Misc ==

Präferierte Hardware:
 * [[http://www.fujitsu.com/de/products/computing/peripheral/scanners/scansnap/ix500/|FUJITSU ScanSnap iX500]] als Scanner
 * Odroid C2 als Steuerungsrechner


== Odroid zur Bedienung des Scanners ==

 * [[https://www.pollin.de/p/odroid-c2-einplatinen-computer-1-5-ghz-quadcore-2-gb-ram-4x-usb-810491|Odroid C2]]
  * 54,95 €
 * [[https://www.pollin.de/p/odroid-c2-c1-c0-8-89-cm-3-5-tft-display-mit-touchscreen-810756|3,5" LCD Display]]
  * 37,95 €
 * [[https://www.pollin.de/p/odroid-c1-c2-lcd-shield-gehaeuse-rauch-blau-810812|Gehäuse für Odroid C2 mit Display]]
  * 11,95 €
 * [[https://geizhals.de/sandisk-ultra-microsdhc-16gb-kit-sdsquar-016g-gn6ma-a1672322.html|Speicherkarte für Betriebssystem]]
  * 7,00 €
 * [[https://www.reichelt.de/usb-2-0-kabel-easy-a-stecker-auf-micro-b-stecker-0-5-m-delock-83849-p162162.html?GROUPID=6099&trstct=vrt_pdn&&r=1|gewinkeltes Stromkabel]]
  * 5,94 €
 * [[https://www.reichelt.de/usb-2-0-kabel-a-stecker-auf-b-stecker-grau-0-5-m-gc-2510-05-p202184.html?GROUPID=6099&trstct=vrt_pdn&&r=1|kurzes USB Kabel für Scanner]]
  * 0,99 €
 * [[https://www.reichelt.de/usb-ladegeraet-5-v-2400-ma-navilock-62849-p199657.html?GROUPID=4924&trstct=vrt_pdn&&r=1|Netzteil]]
  * 11,40 €

 * Hinweis:
  * das Display wird direkt über die GPIOs vom Odroid mit Strom versorgt


== Siehe auch ==

 * [[https://wiki.ubuntuusers.de/Paperwork|Paperwork]] ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art. Das Programm befindet sich noch in einer frühen Entwicklungsphase. Es ist wohl eher für den Desktop (GUI) als für ein Netz geeignet. Wäre aber vielleicht für einen Check direkt nach dem Scannen geeignet.
 * [[http://www.doc-forum.de/downloads/DocForum_Was_ist_PDFA-2_Heiermann.pdf|Was ist PDF/A-2?]]
 * [[https://de.wikipedia.org/wiki/Mixed_Raster_Content|MRC]]
 * [[https://de.wikipedia.org/wiki/JBIG2|JBIG2]]
 * PaperlessOfficeAnforderungen
 * Abbyy4Linux




== Offene Fragen ==

 * Scannen
  * Welche Scanner verwenden?
  * Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
  * Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
  * In welchem Format sollen diese Rohdaten archiviert werden?
  * Wie kann man einen [[https://tutorials-raspberrypi.de/testbericht-zum-7-raspberry-pi-touchscreen-display/|RPi mit LCP-Display]] (oder [[https://www.amazon.de/Quimat-Aufl%C3%B6sung-Interface-Raspberry-QSC06/dp/B06X191RX7/ref=sr_1_2?ie=UTF8&qid=1498129225&sr=8-2&keywords=Raspberry+Pi+Touch-Display|diesem]] Display) zur Steuerung des Scanners nutzen? Die Daten sollen dann vom RPi auf einen Ubuntu-Server zur Weiterverarbeitung übertragen werden.

 * Post-Processing der Scans
  * Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
   * Geraderücken
   * Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
   * Falten, Dreck, Grauschleier entfernen

Papierloses Büro

Konzept zur Realisierung eines papierlosen Büros

Architektur, Workflow

paperless.png

  • Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
    • Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
  • Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
    • ggfs. Reduzierung der Auflösung und der Farben mit ImageMagick

    • Entfernung von Artefakten (Dreck)
    • Entfernung von leeren Seiten
    • OCR
    • Erzeugung von PDF/A
    • Indexierung
  • Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.
  • Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
  • inotify meldet einen neuen File und stößt nächsten Schritt an.

  • Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
  • Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.

Scannen

Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner

Nachbearbeitung der Scans

  • unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.

  • unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle

OCR

Erkanntes in PDF integrieren

  • mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.

  • OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung.

  • hocr2pdf - hocr2pdf kann aus hOCR-Seiten(informationsreiches HTML-Format, welches u.a. Tesseract ab Version 3.0x liefert) und der dazugehörigen Bilddatei eine durchsuchbare PDF-Datei zu erstellen.

Validierung des PDF/A

Welches PDF/A?

  • PDF/A-1b und PDF/A-2b
    • b = basic: Es steht die visuelle Integrität im Mittelpunkt.
  • PDF/A-2a
    • a = advanced oder accessible
    • Enthalten sind weitere Merkmale: Strukturinformationen etwa zu Absätzen, Überschriften oder Spalten; semantische Informationen, die mithilfe von Unicode ein problemloses Copy&Paste aus und eine korrekte Textsuche ermöglichen; Lesefluss, Reflow, voll barrierefreier Zugang

  • PDF/A-2u
    • u = Unicode
    • a ohne Strukturinfos oder b mit Unicode
    • Suchen und Kopieren von Text möglich
    • Empfehlung für gescannte Dokumente mit OCR!

Also PDF/A-2u (oder PDF/A-2a).

Man sollte daher langzeitarchivfähige Dateiformate einsetzen - am besten PDF/A-2u oder PDF/A-2a.

Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.

Mit einem PDF/A-Validator sollte man daher überprüfen, ob es sich wirklich um ein standardkonformes PDF/A handelt:

Erkanntes indexieren

Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI

  • recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
  • indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
  • ggfs. 1x/h incrementelle Indexierung anstoßen

offene Fragen:

  • Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.

Misc

Präferierte Hardware:

Odroid zur Bedienung des Scanners

Siehe auch

  • Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art. Das Programm befindet sich noch in einer frühen Entwicklungsphase. Es ist wohl eher für den Desktop (GUI) als für ein Netz geeignet. Wäre aber vielleicht für einen Check direkt nach dem Scannen geeignet.

  • Was ist PDF/A-2?

  • MRC

  • JBIG2

  • PaperlessOfficeAnforderungen

  • Abbyy4Linux

Offene Fragen

  • Scannen
    • Welche Scanner verwenden?
    • Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
    • Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
    • In welchem Format sollen diese Rohdaten archiviert werden?
    • Wie kann man einen RPi mit LCP-Display (oder diesem Display) zur Steuerung des Scanners nutzen? Die Daten sollen dann vom RPi auf einen Ubuntu-Server zur Weiterverarbeitung übertragen werden.

  • Post-Processing der Scans
    • Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
      • Geraderücken
      • Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
      • Falten, Dreck, Grauschleier entfernen

Anmerkungen, Anregungen

Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite

PaperlessOffice (zuletzt geändert am 2018-09-12 13:16:17 durch thenmarkus@cbs.mpg.de)