Dokumentenverwaltung privat

Druckbare Version

40 Beiträge dieses Themas auf einer Seite anzeigen

19.08.2019, 20:37
blarch

Ja, ich möchte die PDF aber noch meinem eigenen System benennen und strukturiert in Ordner anlegen.

Übrigens erkennt die neue Scansoftware von Fujitsu das Datum auf dem Beleg und den Bereff. Funktioniert sehr gut..
08.09.2019, 14:57
Hypophyse

Melde Vollzug, natürlich mittels einer forumskonformen Minimalvariante. :gut:

Nachdem das alte NAS mit dem Dateisystem ext4 aufgesetzt war und Docker Btrfs voraussetzt, musste ein zweites NAS her, auch, um örtliche getrennte Backups machen zu können. Eine Änderung des Dateisystems ist im laufenden Betrieb nicht möglich. Ich habe mich für ein RAID "SHR-2" entschieden, das heißt, hier bleiben 12 TB Kapazität übrig und zwei Platten dürfen ausfallen, ohne dass es zu einem Datenverlust kommt.

http://oysterreich.net/Dokumentenscanner-01.jpg

Brother ADS-1700W mit der Möglichkeit, direkt ins Netzwerk zu scannen: https://www.brother.at/scanner/ads-1700w

http://oysterreich.net/Dokumentenscanner-02.jpg

Auf dem NAS wird ein "gemeinsamer Ordner" namens Scanner angelegt, darin folgende Verzeichnisse:

http://oysterreich.net/Dokumentenscanner-03.png

Ebenso ein Benutzer, der nur dort Schreibrechte hat:

http://oysterreich.net/Dokumentenscanner-04.png

Dann wird Docker installiert, eine Virtualisierungslösung, für die es unzählige Pakete gibt:

http://oysterreich.net/Dokumentenscanner-05.png

Eines davon ist OCRmyPDF, das die Texterkennung vornimmt: https://ocrmypdf.readthedocs.io/en/latest/

http://oysterreich.net/Dokumentenscanner-06.png

Eine bequeme Verwaltungsoberfläche für all jene, die die Kommandozeile scheuen bietet SynOCR: https://www.cphub.net/?id=40&pid=821

http://oysterreich.net/Dokumentenscanner-07.png

Der Scanner bekommt ein Netzwerkziel auf dem NAS:

http://oysterreich.net/Dokumentenscanner-08.png

Dann legt man Dokumente ein und startet den Scan:

http://oysterreich.net/Dokumentenscanner-09.jpg

Es gibt dann zwei Möglichkeiten. Entweder startet man die Erkennung auf dem NAS manuell über das Paket SynOCR, oder man lässt das z.B. in der Nacht laufen und hat am nächsten Tag alle PDFs mit durchsuchbarem Text versehen.

Das Ergebnis anhand einer Rechnung:

http://oysterreich.net/Dokumentenscanner-10.png

Damit erübrigt sich im Endeffekt eine pingelige Ablage, da man jedes Dokument bzw. dessen Inhalt über die Suchfunktion des Betriebssystems findet.

Man könnte jetzt zusätzlich noch einen Paginierstempel einsetzen, den ganzen Papierkram nummerieren und chronologisch ablegen. Benötigt man etwas, sucht man nach Inhalt, findet im PDF die Nummer und weiß sofort, wo das Dokument ist.

Oder man nutzt z.b. Hazel von https://www.noodlesoft.com und sortiert die Scans automatisiert nach Inhalt in die gewünschten Verzeichnisse.

Da freut sich die alte Buchhalterseele! :jump:
08.09.2019, 15:21
ehemaliges mitglied

Sehr cool gelöst, danke für das „Tutorial“. Gefällt mir gut, nur die nicht vorhandene Sortierung würde mir Sorgen machen. Da liegen ja irgendwann zigtausend Dokumente mit kryptischen Namen. Kann man das nicht irgendwie optimieren? Kann die OCR Software das nicht intelligent benennen?

Gerade beim erstmaligen Anlegen wird das richtig heftig.

Sortierung hin oder her, das gefällt mir. Könnte mein Winterprojekt werden :gut:
08.09.2019, 15:52
Hypophyse

SynOCR kann das, aber natürlich nicht perfekt. Dessen Hauptaufgabe ist es, sich die Einstellungen zusammenklicken zu können. Für alles Weitere würde ich auf Hazel setzen, aber das habe ich noch nicht getestet.
08.09.2019, 20:54
natas78

12 TB?
Was willst du denn alles scannen.
08.09.2019, 21:46
Hypophyse

Alles! :D
08.09.2019, 21:54
Spacewalker

Zitat:

Zitat von Hypophyse

Ich habe mich für ein RAID "SHR-2" entschieden, das heißt, hier bleiben 12 TB Kapazität übrig und zwei Platten dürfen ausfallen, ohne dass es zu einem Datenverlust kommt.

Sind die Platten auch außerhalb des NAS noch auslesbar, falls der Raid-Controller ausfällt? (Leider schon erlebt.)
08.09.2019, 22:02
Hypophyse

Ja, mit Ubuntu: https://www.synology.com/en-global/k...ion_using_a_PC

Sobald alles eingerichtet ist, wird das gesamte System auf einem zweiten NAS gesichert und dieses steht dann nicht daheim, sondern wird übers Netz synchronisiert.
08.09.2019, 22:06
avalanche

Bist du der neue Datenverantwortliche der ÖVP :bgdev: :D
08.09.2019, 22:21
slimshady

:rofl::rofl:
08.09.2019, 22:35
Hypophyse

Mein Name ist Reiss. Wolf Reiss.
08.09.2019, 22:48
avalanche

:D
09.09.2019, 00:07
Hypophyse

Zitat:

Zitat von ReneS

Da liegen ja irgendwann zigtausend Dokumente mit kryptischen Namen. Kann man das nicht irgendwie optimieren? Kann die OCR Software das nicht intelligent benennen?

Hazel kann genau das: https://vimeo.com/68593663
09.09.2019, 04:53
Gweilo

Sehr gut! Vielen Dank, für die Information!
09.09.2019, 07:43
ehemaliges mitglied

Zitat:

Zitat von Hypophyse

Hazel kann genau das: https://vimeo.com/68593663

8o8o8o

:verneig: danke.

Das ist wirklich genial.

40 Beiträge dieses Themas auf einer Seite anzeigen