Re: [Trolug] PDF Indexing | Try ocrmypdf

Armin Stroß-Radschinski Fri, 02 Oct 2015 02:26:44 -0700

Gib ocrmypdf einen Test:

https://github.com/jbarlow83/OCRmyPDF


Wenn man docker am laufen hat: leicht zu installieren mit
https://hub.docker.com/r/paulstaab/ocrmypdf/

Ich verwende es mit MacOSX und boot2docker.
Erfahrungen habe ich weniger weil ich auch eine Acrobat Vollversion verwende. 
Aber ich suche immer nach Alternative um Adobe zu kicken.

Vorteil gegenüber z.B. Tesseract:
- Es wird echter markierbarer Text exakt hinter den Scan gelegt (wie bei 
Acrobat).
- Man kann suchen, aber wenn die OCR mal versagt kann man das Original lesen.
- Beim Suchen daher immer die minimalen Stems verwenden um nicht über OCR 
Fehler zu stolpern.

Beispiel: Ich suche "Blödmannsgehilfe" -> Sucheingabe: *mannsgeh* (ö Pünktchen 
und andere Fehlinterpretationen von Buchstabenpaaren lernt man mit der Zeit. 
Das schreit nach besserer Software, ist aber nur bedingt implementierbar)

LG Armin


Am 02.10.2015 um 10:08 schrieb [email protected]:

> Hallo zusammen,
> 
> ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium 
> gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne 
> den Text in den PDF's erkennen und als reinen Text mit in die PDF's 
> schreiben. Ziel der Aktion soll es sein, die PDF's durchsuchbar zu machen, 
> damit ich nach Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien 
> liegen in verschiedenen Verzeichnissen unterhalb eines Wurzelverzeichnisses, 
> d. h. Bibliothek, z. B. Bibliothek/Programmierung/C, 
> Bibliothek/Programmierung/Cpp, usw. Ich denke es sind max. 3 
> Verzeichnisebenen.
> 
> Ich suche jetzt noch einer Open Source Software, die die Indexierung 
> durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum zu 
> durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe ich ein 
> kleiners Skript in Python, dass den Baum durchsucht und die Dateien zuliefert.
> 
> Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software 
> gefunden, die auf die fertigen PDF's zugreift und daraus neue externe Indexe 
> aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, indem die 
> PDF's selbst aufbereitet werden sollen.
> 
> Könnt Ihr mir einen Hinweis geben, wo ich suchen kann?
> 
> Viele Grüße
> 
> Georg
> _______________________________________________
> Trolug_trolug.de mailing list
> [email protected]
> https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de



--
Armin Carl Stroß-Radschinski | [email protected] | Twitter: @syncmitter
Dipl. Designer FH | project-consultant | fon +49 171 21 94699 | IRC: acsr | 
Skype: astrossradschinski

ACSR industrialdesign | Armin Stroß-Radschinski
Landgrafenstraße 32 · 53842 Troisdorf · Germany | UST. ID Nr: DE154092803 (EU 
VAT ID)
[email protected] | www.acsr.de | phone +49 2241 946994 · fax +49 2241 946996

signature.asc
Description: Message signed with OpenPGP using GPGMail

_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de

Re: [Trolug] PDF Indexing | Try ocrmypdf

Antwort per Email an