Eu ja fiz busca em conteudo de PDFs mas não com OCR, apenas extraindo o texto do PDF mesmo.
No seu caso, acho mais fácil você fazer uma tool para extrair as imagens do documento PDF primeiro
e depois aplicar alguma ferramenta de OCR em cima das imagens mesmo resultando em um arquivo texto.
Vlw



André F Silva escreveu:
Olá, pessoal. Alguém já usou OCR dentro do Plone? Eu tenho alguns documentos em PDF que são imagens (e não texto), mas que possuem texto na forma de imagens. Gostaria que os tipos de conteúdo que estão armazenando esses PDFs, pudessem ter o texto da imagem indexado pela busca do Plone. É aí que entra o OCR. Produtos como o AttachmentField, indexam textos PDF, mas não funcionam com imagens com texto. Alguém sabe de um outro produto, API python ou um produto de terceiros que faz o reconhecimento? Há algum OCR open source pra reconhecimento em português?

André FS


Abra sua conta no Yahoo! Mail - 1GB de espaço, alertas de e-mail no celular e anti-spam realmente eficaz.


--
Leandro Zanuz
Núcleo de Processamento de Dados
Universidade de Caxias do Sul
E-mail: [EMAIL PROTECTED]
Fone: [54] 3218-2198


Para enviar uma mensagem: zope-pt@yahoogrupos.com.br
Para desistir envie uma mensagem em branco para: [EMAIL PROTECTED]



Yahoo! Grupos, um serviço oferecido por:
PUBLICIDADE


Links do Yahoo! Grupos

Responder a