Hola:

Me gustar�a que me recomendarais paquetes o alguna forma de "hincarle el 
diente" para empezar a investigar en la siguiente cuesti�n.

El proyecto trata de que, a partir de un numero grande de documentos pdf que 
contienen, b�sicamente, Notas Simples del Registro de la Propiedad deseamos 
extraer para cada uno de esos documentos una serie de �tems de informaci�n, a 
saber:
-Finca Registral
-Registro de la Propiedad
-Referencia Catastral (si la hubiera)
-IDUFIR o CUR (identificadores �nicos de finca registral, si las hubiera)

Los documentos provienen de muy diversas fuentes por lo que la informaci�n no 
se podr�a extraer con miner�a de textos "pura" ya que, por ejemplo, la finca 
registral puede venir especificada como:
-FINCA DE TOLEDO N�: XXXXXXX
-N� Finca: FINCA DE PILAR DE LA HORADADA N�: XXXXXXX
-Finca registral: XXXXXXX
-REGISTRAL XXXXXX
-FINCA DE MARBELLA (Secci�n 03) N�: XXXXXX
-Finca: XXXXXX

Siendo un total profano en la materia, creo que se puede definir como un 
proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que se 
necesita de un an�lisis sem�ntico de los textos vista la variedad de formas que 
hay de expresar el mismo concepto con textos distintos. Desconozco si existe 
alg�n tipo de proceso de Aprendizaje Autom�tico que se pueda tambi�n aplicar 
para que el proceso vaya "aprendiendo" como se puede ir encontrando la 
informaci�n de los distintos �tems de forma complementaria al PLN.

He localizado esta web:  
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html en la que 
hay multitud de paquetes/herramientas para an�lisis de este tipo pero me 
gustar�a que me indicarais cual o cuales cre�is que son los m�s apropiados para 
este caso concreto o si tengo que enfocar el tema por otro lado completamente 
distinto.

Mil gracias por vuestros consejos.

Un saludo


JLL Valoraciones, S.A.
Registration number: A-28806222.
Registered Office: P� de la Castellana, 130 - 1� ; 28046 Madrid

This e-mail is for the use of the intended recipient(s) only. If you have 
received this e-mail in error, please notify the sender immediately and then 
delete it. If you are not the intended recipient, you must not use, disclose or 
distribute this e-mail without the author's prior permission. We have taken 
precautions to minimise the risk of transmitting software viruses, but we 
advise you to carry out your own virus checks on any attachment to this 
message. We cannot accept liability for any loss or damage caused by software 
viruses. If you are the intended recipient and you do not wish to receive 
similar electronic messages from us in future then please respond to the sender 
to this effect

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Responder a