Wojciech Myszka wrote:

> On Wed, 21 Nov 2001, Piotr Zaprawa wrote:
>
>
>>ja poszedlbym linia troche ... tansza mozna uzyc programu pdftotext
>>(pdf2text czy jakos tak), a wynik przeszukac czyms tam mozna by
>>odrobine przerobic kod zrodlowy tego, by od razu robil to to.
>>
>
>   Pozwalam sobie zwrocic uwage, ze PDFy z polskimi literami moga byc
>   kodowane na kilka sposobow, i nie zawsze konwersja do tekstu musi dac
>   zadawalajace rezultaty. Oto fragment mojego grafika.pdf:
>
> Problem jest o tyle trudny,  ze w  standardowych" (cokolwiek to oznacza)
> czcionkach PostScrip-
> towych polskich liter nie ma! Dost epne s  a oczywi´scie (tak darmowe jak
> i komercyjne) zesta-
> wy polskich czcionek Type1. Nie zawsze jednak u zywane aplikacje potrafia
> z nich skorzysta´c.
>
>   (literki byly skladane z dwy znaczkow, co czasami daje calkiem czytelny
>   wynik ('s'c) ale czasami nie ( e,  a). ł, na przyklad skladane jest jako
>   l + "spacja" pod ktora bywa /...
>
>   Co prawda ghostscriptowe ps-to-text posiada jakas wiedze o "Cork
>   encoding", ale...
> --
> Wojtek  ---(___C'>
>

W moim przypadku ___czesciowo___ chodzi mi o wersje angielskojezyczna
wiec sprawa sie upraszcza. Pozostaje jednak problem jak zrobic
przeszukiwarke w pdf o ktorej pisalem.

Marek Jaskula

P.S. Widze, ze problem jest na razie specjalnie nie rozwiazany.... (ale
moze wspolnymi silami...)

Odpowiedź listem elektroniczym