Aw: Re: [Trolug] PDF Indexing | Try ocrmypdf

G . Maubach Mon, 05 Oct 2015 22:39:48 -0700

Hallo Armin (und alle anderen),

vielen Dank für Deine Rückmeldung. Verstehe ich Dich richtig, dass die derzeit 
beste Lösung im Markt Adobe Acrobat ist?


Viele Grüße

Georg

> Gesendet: Freitag, 02. Oktober 2015 um 11:25 Uhr
> Von: "Armin Stroß-Radschinski" <[email protected]>
> An: [email protected]
> Betreff: Re: [Trolug] PDF Indexing | Try ocrmypdf
>
> Gib ocrmypdf einen Test:
> 
> https://github.com/jbarlow83/OCRmyPDF
> 
> Wenn man docker am laufen hat: leicht zu installieren mit
> https://hub.docker.com/r/paulstaab/ocrmypdf/
> 
> Ich verwende es mit MacOSX und boot2docker.
> Erfahrungen habe ich weniger weil ich auch eine Acrobat Vollversion verwende. 
> Aber ich suche immer nach Alternative um Adobe zu kicken.
> 
> Vorteil gegenüber z.B. Tesseract:
> - Es wird echter markierbarer Text exakt hinter den Scan gelegt (wie bei 
> Acrobat).
> - Man kann suchen, aber wenn die OCR mal versagt kann man das Original lesen.
> - Beim Suchen daher immer die minimalen Stems verwenden um nicht über OCR 
> Fehler zu stolpern.
> 
> Beispiel: Ich suche "Blödmannsgehilfe" -> Sucheingabe: *mannsgeh* (ö 
> Pünktchen und andere Fehlinterpretationen von Buchstabenpaaren lernt man mit 
> der Zeit. Das schreit nach besserer Software, ist aber nur bedingt 
> implementierbar)
> 
> LG Armin
> 
> 
> Am 02.10.2015 um 10:08 schrieb [email protected]:
> 
> > Hallo zusammen,
> > 
> > ich habe eine Frage zu PDF. Ich habe einige alte Bücher aus meinem Studium 
> > gescannt und als PDF (300 dpi, Greyscale) abgelegt. Jetzt möchte ich gerne 
> > den Text in den PDF's erkennen und als reinen Text mit in die PDF's 
> > schreiben. Ziel der Aktion soll es sein, die PDF's durchsuchbar zu machen, 
> > damit ich nach Begriffen in den Fachbüchern suchen kann. Die PDF-Dateien 
> > liegen in verschiedenen Verzeichnissen unterhalb eines 
> > Wurzelverzeichnisses, d. h. Bibliothek, z. B. Bibliothek/Programmierung/C, 
> > Bibliothek/Programmierung/Cpp, usw. Ich denke es sind max. 3 
> > Verzeichnisebenen.
> > 
> > Ich suche jetzt noch einer Open Source Software, die die Indexierung 
> > durchführen kann. Wenn die Software in der Lage wäre, den Verzeichnisbaum 
> > zu durchsuchen, wäre das prima. Ist aber nicht Bedingung. Ggfs. schreibe 
> > ich ein kleiners Skript in Python, dass den Baum durchsucht und die Dateien 
> > zuliefert.
> > 
> > Über Tante Google habe ich recherchiert. Dort habe ich aber nur Software 
> > gefunden, die auf die fertigen PDF's zugreift und daraus neue externe 
> > Indexe aufbaut. Meine Fragestellung zielt aber auf den Schritt davor ab, 
> > indem die PDF's selbst aufbereitet werden sollen.
> > 
> > Könnt Ihr mir einen Hinweis geben, wo ich suchen kann?
> > 
> > Viele Grüße
> > 
> > Georg
> > _______________________________________________
> > Trolug_trolug.de mailing list
> > [email protected]
> > https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
> 
> 
> 
> --
> Armin Carl Stroß-Radschinski | [email protected] | Twitter: @syncmitter
> Dipl. Designer FH | project-consultant | fon +49 171 21 94699 | IRC: acsr | 
> Skype: astrossradschinski
> 
> ACSR industrialdesign | Armin Stroß-Radschinski
> Landgrafenstraße 32 · 53842 Troisdorf · Germany | UST. ID Nr: DE154092803 (EU 
> VAT ID)
> [email protected] | www.acsr.de | phone +49 2241 946994 · fax +49 2241 946996
> 
> _______________________________________________
> Trolug_trolug.de mailing list
> [email protected]
> https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de
>
_______________________________________________
Trolug_trolug.de mailing list
[email protected]
https://ml01.ispgateway.de/mailman/listinfo/trolug_trolug.de

Aw: Re: [Trolug] PDF Indexing | Try ocrmypdf

Antwort per Email an