Muchas gracias, los voy a revisar. Saludos.
by: ISC. Manuel Alejandro Estévez Fernández El 3 de junio de 2014, 5:50, Luis Iglesias <[email protected]> escribió: > > ----- Mensaje original ----- > De: "Manuel A. Estevez Fernandez" <[email protected]> > Para: "La lista de python en castellano" <[email protected]> > Enviados: Lunes, 2 de Junio 2014 17:50:02 > Asunto: Re: [Python-es] Analizar cadena y extraer valores > > Muchas gracias por tu aportación Luis, si me pudieras compartir tu código > te lo agradecería mucho. Porque de momento estoy jugando todavía a prueba y > error con la interpretación del texto extraído. > > ------------ > No sé si la lista admite adjuntos. > Envío el módulo principal y un ejemplo de uso. Ten en cuenta que este > módulo trabaja con el fichero html que se genera con pdftotext a partir del > pdf. > Yo lo estoy empleando para leer facturas y generar un json con los datos > > El código de uso sería algo así: > > from ocr.utilspdf import PdfTextInfo > from extra import debug, fechas > import json > import os.path > > hInfo = PdfTextInfo(ficheroHtml) > self.json = {} > j = self.json > j['002.pdf.pagDesde'] = 1 > j['002.pdf.pagHasta'] = hInfo.totalPaginas > j['010.factura'] = hInfo.getTextoEnXY(1, 70.8, 216.352) > j['021.fIniFact'] = > fechas.YMD(fechas.dd_mm_aa2date(hInfo.getTextoEnXY(1, 70.8, 317.632))) > p = hInfo.getNumpag(70.8, 126.416, 'ENDEREZO') > j['040.direccion'] = hInfo.getTextoEnRegion(p, (70.8, 134.032, > 300, 142.888)) > > La clase PdfTextInfo está definida en el módulo utilspdf que adjunto. > El método getTextoEnXY devuelve la palabra que tiene exactamente esas > coordenadas en la esquina superior izquierda. > El método getTextoEnRegion recoge el texto que se encuentra en las > esquinas que se le pasen. > Hay algunos métodos que quizá no te hagan falta, como obtener el total de > páginas o preguntar en qué página se encuentra tal texto en tal posición. > > Si tienes alguna pregunta no tendré problema en contestar: por aquí (si la > lista está de acuerdo) o por el correo privado. > > _______________________________________________ > Python-es mailing list > [email protected] > https://mail.python.org/mailman/listinfo/python-es > FAQ: http://python-es-faq.wikidot.com/ > >
_______________________________________________ Python-es mailing list [email protected] https://mail.python.org/mailman/listinfo/python-es FAQ: http://python-es-faq.wikidot.com/
