Saludos a todos

Tengo la siguiente necesidad:

Extraer el texto de un archivo PDF (una factura), el cual lo resolví
utilizando pyPdf, sin embargo el texto texto resultante de la lectura, es
una sola linea de texto de la cual debo extraer.
El patrón de la información siempre es el mismo:

*COMMERCIAL INVOICESeller*[Datos]*Consignee*[Datos]*Notify
Party*[Datos]*Departure
Date:*        [datos]*Delivery and Payment Term*[Datos]*Country of origin*
[Datos]*Invoice No. & Date*[Datos]*PO no. & Date*[Datos]*Buyer Reference NO
& Date*[Datos]*Buyer*[Datos]*Remarks*[Datos]*Other References*[Datos*]Goods
description Model code
  Quantity              Unit priceAmount*[descripcion]
 [Modelo]             [Cantidad]         [PrecioUnitario][Monto]
*Total: *[Descripcion]
                [Cantidad]         [Importe][Moneda][descripcion]
     [Modelo]             [Cantidad]         [PrecioUnitario][Monto]
*Total: *[Descripcion]                 [Cantidad]
[Importe][Moneda][descripcion]                [Modelo]
[Cantidad]         [PrecioUnitario][Monto]   *Total: *[Descripcion]
        [Cantidad]         [Importe][Moneda]*/////////END OF
DATA//////////////*

Las que se encuentran en negritas son los tags que se repiten de forma fija.

Sería de mucha ayuda si me pudieran indicar cuáles herramientas utilizar o
algún método general para realizar este proceso.

Gracias de antemano.

by:

ISC. Manuel Alejandro Estévez Fernández
_______________________________________________
Python-es mailing list
[email protected]
https://mail.python.org/mailman/listinfo/python-es
FAQ: http://python-es-faq.wikidot.com/

Responder a