Wojciech Myszka wrote:
> On Wed, 21 Nov 2001, Piotr Zaprawa wrote:
>
>
>>ja poszedlbym linia troche ... tansza mozna uzyc programu pdftotext
>>(pdf2text czy jakos tak), a wynik przeszukac czyms tam mozna by
>>odrobine przerobic kod zrodlowy tego, by od razu robil to to.
>>
>
> Pozwalam sobie zwrocic uwage, ze PDFy z polskimi literami moga byc
> kodowane na kilka sposobow, i nie zawsze konwersja do tekstu musi dac
> zadawalajace rezultaty. Oto fragment mojego grafika.pdf:
>
> Problem jest o tyle trudny, ze w standardowych" (cokolwiek to oznacza)
> czcionkach PostScrip-
> towych polskich liter nie ma! Dost epne s a oczywi´scie (tak darmowe jak
> i komercyjne) zesta-
> wy polskich czcionek Type1. Nie zawsze jednak u zywane aplikacje potrafia
> z nich skorzysta´c.
>
> (literki byly skladane z dwy znaczkow, co czasami daje calkiem czytelny
> wynik ('s'c) ale czasami nie ( e, a). ł, na przyklad skladane jest jako
> l + "spacja" pod ktora bywa /...
>
> Co prawda ghostscriptowe ps-to-text posiada jakas wiedze o "Cork
> encoding", ale...
> --
> Wojtek ---(___C'>
>
W moim przypadku ___czesciowo___ chodzi mi o wersje angielskojezyczna
wiec sprawa sie upraszcza. Pozostaje jednak problem jak zrobic
przeszukiwarke w pdf o ktorej pisalem.
Marek Jaskula
P.S. Widze, ze problem jest na razie specjalnie nie rozwiazany.... (ale
moze wspolnymi silami...)