Größe: 4125
Kommentar:
|
Größe: 8622
Kommentar:
|
Gelöschter Text ist auf diese Art markiert. | Hinzugefügter Text ist auf diese Art markiert. |
Zeile 1: | Zeile 1: |
#acl hayd@cbs.mpg.de:read,write,delete,revert,admin Known:read,write All:read | |
Zeile 6: | Zeile 7: |
Konzept zur Realisierung eines papierlosen Büros | |
Zeile 7: | Zeile 9: |
Gedanken zur Realisierung eines papierlosen Büros | <<TableOfContents(3)>> |
Zeile 9: | Zeile 11: |
== Architektur == | |
Zeile 11: | Zeile 12: |
* Scans werden in ownCloud-Ordnern gespeichert. Alles Tools, Server und Nutzer greifen auf diese Ordner zu. * Für die einzelnen Verarbeitungsschritte gibt es 3 Ordner: für Rohmaterial, Zwischenschritte und Endablage. * Diese 3-er-Gruppe gibt es für jede Nutzergruppe. |
== Architektur, Workflow == {{attachment:paperless.png||width=75%}} * Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt. * Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen. * Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen: * ggfs. Reduzierung der Auflösung und der Farben mit [[https://wiki.ubuntuusers.de/ImageMagick/|ImageMagick]] * Entfernung von Artefakten (Dreck) * Entfernung von leeren Seiten * OCR * Erzeugung von PDF/A * Indexierung * Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert. * Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren. |
Zeile 15: | Zeile 31: |
* Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette. * Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt. |
|
Zeile 20: | Zeile 37: |
Einscannen mit Raspberry Pi und Scanner | Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner |
Zeile 25: | Zeile 42: |
* [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]] - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/][HIER]]. | * [[http://www.och-group.de/2015/08/17/fujitsu-scansnap-ix500-mit-raspbian-raspberry-pi-als-scanserver-nutzen/|Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]]] * [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix !XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch [[http://www.scansnapcommunity.net/de/tag/twain/|HIER]]. * Herr Breinlinger bietet Support für [[https://www.drbreinlinger.de/Scanserver/Scanserver.htm|seine Lösung]] an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler. |
Zeile 27: | Zeile 47: |
* [[https://geizhals.de/fujitsu-scansnap-ix500-pa03656-b301-a1499766.html| Fujitsu ScanSnap iX500]]] - ein gerne verwendeter Scanner == Ablegen == * in ownCloud-Ordnern * Alles Tools, Server und Nutzer greifen auf diese Ordner zu. * Es gibt verschiedene Ordner: * Scan - für Scans, bleiben dort erhalten bis alles fertig ist bzw. 1 Woche * Work - hier spielen sich alle Verarbeitungsschritte bis zum PDF/A ab. Wenn PDF/A entstanden, werden die Vorstufen abgeräumt und das PDF/A in die finalen Ordner verschoben * Ordner nach Inhalt oder Nutzergruppe benannt - dorthin wird das PDF/A verschoben und dann indexiert * Für jede Nutzergruppe (= ACL-Kombination) gibt es eine eigene Kette. == Konvertieren == [[https://wiki.ubuntuusers.de/ImageMagick/|Konvertieren]], wenn Scanner ungeeignete Formate für das Postprocessing ausspucken. |
|
Zeile 50: | Zeile 53: |
* unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. [[https://www.imagemagick.org/script/command-line-options.php#despeckle|despeckle]] | |
Zeile 57: | Zeile 61: |
* beste Lösung für automatisierten Betrieb * wird von [[https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-Tesseract-OCR-1674881.html|Google]] genutzt (z.B. für[[https://books.google.de/|Google Books]]) und gepflegt |
|
Zeile 62: | Zeile 68: |
* [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. | * [[https://wiki.ubuntuusers.de/OCRmyPDF/|OCRmyPDF]] - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung. [[https://www.heise.de/ct/artikel/Toolbox-Texterkennung-mit-OCRmyPDF-2356670.html|positiv getestet]] siehe auch: * [[http://www.slub-dresden.de/ueber-uns/slubarchiv/technische-standards-fuer-die-ablieferung-von-digitalen-dokumenten/langzeitarchivfaehige-dateiformate/|Langzeitarchivfähige Dateiformate]] * [[http://www.slub-dresden.de/service/pflichtmedien-abliefern/technische-standards-fuer-die-ablieferung-von-netzpublikationen/|Technische Standards für die Ablieferung von Netzpublikationen]] - u.a. Tipps zur Erstellung PDF/A-konformer Dateien * freier [[http://www.linux-magazin.de/NEWS/PDF-A-Validator-Vera-PDF-in-Version-1.0|PDF/A-Validator Vera PDF]] - bietet [[http://verapdf.org/software/|Installer]] für Linux * [[https://de.wikipedia.org/wiki/JHOVE|JHOVE]] - in Projekt, um ein erweiterbares Tool zur Formatvalidierung zu entwickeln Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind. |
Zeile 67: | Zeile 81: |
[[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]]] | [[https://www.pro-linux.de/artikel/2/1675/volltextsuche-mit-recoll.html|Volltextsuche mit Recoll]] - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von [[https://github.com/koniu/recoll-webui|Recoll WebUI]] |
Zeile 73: | Zeile 87: |
* Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln (Problem: Man muss mehrmals suchen). Man sollte mit wenigen Nutzergruppen (Direktoren, Fußvolk) arbeiten, so dass diese wissen wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen. | * Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen. == Misc == Präferierte Hardware: * [[http://www.fujitsu.com/de/products/computing/peripheral/scanners/scansnap/ix500/|FUJITSU ScanSnap iX500]] als Scanner * Raspberry Pi als Steuerungsrechner == RPi zur Bedienung des Scanners == * [[https://www.rasppishop.de/Raspberry-Pi-3-Modell-B-mit-12-GHz-QuadCore-64Bit-CPU|Raspberry Pi 3 Modell B mit 1,2 GHz QuadCore 64Bit CPU]] * Artikel-Nr.: eb5652 * 36,49 € * [[https://www.rasppishop.de/Raspberry-Pi-7-Touchscreen-Display|Raspberry Pi 7" Touchscreen Display]] * Artikel-Nr.: eb5540 * 73,99 € * [[https://www.rasppishop.de/Smarti-Pi-Touch-Gehaeuse-fuer-das-Raspberry-Pi-Display|Smarti Pi Touch Gehäuse für das Raspberry Pi Display]] * Artikel-Nr.: eb5703 * 25,99 € * [[https://geizhals.de/hn-power-hnp15-microusbl6-schwarz-a1599872.html|MicroUSB Ladegerät 2,5A für Display und Raspberry Pi]] * 9,99 € * [[https://www.rasppishop.de/10er-Set-Jumperkabel-Buchse-Buchse-fuer-GPIO|10er Set Jumperkabel Buchse/Buchse für GPIO]] * Artikel-Nr.: eb5649 * 1,99 € * Hinweise: * microUSB Netzteil muss an Steuerplatine des Displays angeschlossen werden * Jumper Kabel versorgen Raspberry Pi über die GPIOs mit Strom == Siehe auch == * [[https://wiki.ubuntuusers.de/Paperwork|Paperwork]] ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art. |
Zeile 79: | Zeile 126: |
== Offene Fragen == * Scannen * Welche Scanner verwenden? * Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden. * Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden. * In welchem Format sollen diese Rohdaten archiviert werden? * Wie kann man einen [[https://tutorials-raspberrypi.de/testbericht-zum-7-raspberry-pi-touchscreen-display/|RPi mit LCP-Display]] (oder [[https://www.amazon.de/Quimat-Aufl%C3%B6sung-Interface-Raspberry-QSC06/dp/B06X191RX7/ref=sr_1_2?ie=UTF8&qid=1498129225&sr=8-2&keywords=Raspberry+Pi+Touch-Display|diesem]] Display) zur Steuerung des Scanners nutzen? Die Daten sollen dann vom RPi auf einen Ubuntu-Server zur Weiterverarbeitung übertragen werden. * Post-Processing der Scans * Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing: * Geraderücken * Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde * Falten, Dreck, Grauschleier entfernen |
Papierloses Büro
Konzept zur Realisierung eines papierlosen Büros
Inhaltsverzeichnis
Architektur, Workflow
- Die Scans werden in einem lokalen Verzeichnis (raw) gespeichert und im Archiv abgelegt.
- Da dieser Schritt aufwändig ist, soll er bei Bedarf (z.B. höhere Auflösung, mehr Farben erforderlich) nicht wiederholt werden müssen, sondern man kann die Scans aus dem HSM holen.
- Die Scans werden in ein anderes lokales Verzeichnis (work) kopiert, in dem folgende Bearbeitungsschritte erfolgen:
ggfs. Reduzierung der Auflösung und der Farben mit ImageMagick
- Entfernung von Artefakten (Dreck)
- Entfernung von leeren Seiten
- OCR
- Erzeugung von PDF/A
- Indexierung
- Die Dokumente (PDF/A) und ihr Index werden in ein ownCloud-Verzeichnis bei der GWDG (final) synchronisiert.
- Man sucht und betrachtet die Dokumente per Web-Interface in "final". Bei Bedarf kann man sich einzelne Unterverzeichnisse auf einen lokalen Rechner synchronisieren.
inotify meldet einen neuen File und stößt nächsten Schritt an.
- Für jede Nutzergruppe/Scanner (= ACL-Kombination) gibt es eine eigene Verarbeitungskette.
- Die Zugriffsrechte werden mit den Bordmitteln von ownCloud geregelt.
Scannen
Einscannen mit Raspberry Pi, Ubuntu-PC und Scanner
Fujitsu Scansnap ix500 mit Raspbian (Raspberry Pi) als Scanserver nutzen]
Fujitsu ScanSnap iX500] - ein gerne verwendeter Scanner - Hier bitte beachten, dass der Drucker nicht TWAIN-Kompatibel ist. Damit ist z.B. eine Weiterleitung/Nutzung in einer Citrix XenApp-Session und auch Grafik-Software, die nur auf TWAIN setzt, nicht möglich. Siehe auch HIER.
Herr Breinlinger bietet Support für seine Lösung an. Wenn man den Scanner an einen Ubuntu-PC hängt und nicht an einen Raspberry Pi, läuft die Lösung stabiler.
Nachbearbeitung der Scans
unpaper (home) - Kommandozeilenprogramm zur Nachbearbeitung von fotokopierten/gescannten Bild- und Textvorlagen.
unpaper wird wohl nicht mehr weiterentwickelt, so dass imagemagick eine Alternative wäre, z.B. despeckle
OCR
- beste Lösung für automatisierten Betrieb
wird von Google genutzt (z.B. fürGoogle Books) und gepflegt
Erkanntes in PDF integrieren
mit PDF/A-1a – Level A (Accessible) conformance: sowohl eindeutige visuelle Reproduzierbarkeit als auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokuments, so dass es im Sinne der Barrierefreiheit von einem Screenreader vorgelesen werden kann.
OCRmyPDF - Kommandozeilenprogramm, um für eingescannte PDF-Dateien eine durchsuchbare Textebene zu erstellen. OCRmyPDF wandelt das PDF eines Scans in PDF/A und macht dabei u.a.: Geradeziehen, Säubern, OCR, PDF/A-Validierung. positiv getestet
siehe auch:
Technische Standards für die Ablieferung von Netzpublikationen - u.a. Tipps zur Erstellung PDF/A-konformer Dateien
freier PDF/A-Validator Vera PDF - bietet Installer für Linux
JHOVE - in Projekt, um ein erweiterbares Tool zur Formatvalidierung zu entwickeln
Wenn das PDF/A nicht dem Standard entspricht, wird es über kurz oder lang Probleme geben, die nur mit viel Arbeit zu beheben sind.
Erkanntes indexieren
Volltextsuche mit Recoll - Dieser Beitrag erläutert die Einrichtung bis zum Ausbau als Dokumentenzentrale im Netz mit Hilfe von Recoll WebUI
- recoll verarbeitet im Netzwerk auch Anfragen über den Webbrowser.
- indexiert (mit geeigneten Filtern): .pdf, .doc, .tar, .zip, .ps, .rtf, .tex, .txt, .html, ...
- ggfs. 1x/h incrementelle Indexierung anstoßen
offene Fragen:
- Index über alle finalen Ordner (Problem: Man kann finden, was man nicht lesen darf.) oder für jede Nutzergruppe einzeln. Problem: Man muss mehrmals suchen. Man sollte mit wenigen Nutzergruppen (Direktoren, Mitarbeiter) arbeiten, so dass diese wissen, wo sie suchen müssen bzw. ggfs. muss man nicht oft suchen.
Misc
Präferierte Hardware:
FUJITSU ScanSnap iX500 als Scanner
- Raspberry Pi als Steuerungsrechner
RPi zur Bedienung des Scanners
Raspberry Pi 3 Modell B mit 1,2 GHz QuadCore 64Bit CPU
- Artikel-Nr.: eb5652
- 36,49 €
Raspberry Pi 7" Touchscreen Display
- Artikel-Nr.: eb5540
- 73,99 €
Smarti Pi Touch Gehäuse für das Raspberry Pi Display
- Artikel-Nr.: eb5703
- 25,99 €
MicroUSB Ladegerät 2,5A für Display und Raspberry Pi
- 9,99 €
10er Set Jumperkabel Buchse/Buchse für GPIO
- Artikel-Nr.: eb5649
- 1,99 €
- Hinweise:
- microUSB Netzteil muss an Steuerplatine des Displays angeschlossen werden
- Jumper Kabel versorgen Raspberry Pi über die GPIOs mit Strom
Siehe auch
Paperwork ist ein in Python verfasstes Programm zur Digitalisierung, Indexierung und Archivierung von Dokumenten aller Art.
Offene Fragen
- Scannen
- Welche Scanner verwenden?
- Mit wieviel dpi scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
- Mit wieviel Farben scannen? Soll zukunftssicher sein. Kann in einem nächsten Schritt heruntergereechnet werden.
- In welchem Format sollen diese Rohdaten archiviert werden?
Wie kann man einen RPi mit LCP-Display (oder diesem Display) zur Steuerung des Scanners nutzen? Die Daten sollen dann vom RPi auf einen Ubuntu-Server zur Weiterverarbeitung übertragen werden.
- Post-Processing der Scans
- Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
- Geraderücken
- Ränder entfernen, wenn z.B. nur eine Visitenkarte eingescannt wurde
- Falten, Dreck, Grauschleier entfernen
- Mit welchen Tools erledigt man am besten folgende Aufgaben im Processing:
Anmerkungen, Anregungen
Anmerkungen, Anregungen, Verbesserungsvorschläge hinterlasse man bitte auf der Diskussionsseite