welcome: please sign in
location: Änderungen von "PaperlessOffice"
Unterschiede zwischen den Revisionen 5 und 6
Revision 5 vom 2017-05-24 13:20:18
Größe: 4769
Kommentar:
Revision 6 vom 2017-05-25 08:35:22
Größe: 4958
Kommentar:
Gelöschter Text ist auf diese Art markiert. Hinzugefügter Text ist auf diese Art markiert.
Zeile 71: Zeile 71:
[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]] [[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]
Zeile 80: Zeile 80:
== Siehe auch ==

 * [[https://wiki.ubuntuusers.de/Paperwork|Paperwork]] ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.

Papierloses Büro

Gedanken zur Realisierung eines papierlosen Büros

Architektur

  • Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
  • Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage.
  • Diese 3-er-Gruppe gibt es für jede Nutzergruppe.
  • inotify meldet einen neuen File und stößt nächsten Schritt an.

Scannen

Einscannen mit Raspberry Pi und Scanner

Ablegen

  • in ownCloud-Ordnern
  • Alles Tools, Server und Nutzer greifen auf diese Ordner zu.
  • Es gibt verschiedene Ordner:
    • Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche
    • Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben
    • Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert
  • Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette.

Konvertieren

Konvertieren, wenn Scanner ungeeignete Formate für das Postprocessing ausspucken.

Nachbearbeitung der Scans

  • unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.

  • unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle

OCR

Erkanntes in PDF integrieren

  • mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.

  • OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen.

Erkanntes indexieren

Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI

  • recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
  • indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
  • ggfs. 1x/h incrementelle Indexierung anstoßen

offene Fragen:

  • Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.

Siehe auch

  • Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.

Anmerkungen, Anregungen

Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite

PaperlessOffice (zuletzt geändert am 2018-09-12 13:16:17 durch thenmarkus@cbs.mpg.de)