Muchas gracias Isidro. Recién me doy cuenta del error ortográfico en el subject, test en lugar de texto.
Manuel El 2 de octubre de 2017, 1:22, Isidro Hidalgo Arellano <[email protected]> escribió: > Yo he utilizado "tm" para tratar PDF de forma masiva, pero hay que tener > mucho cuidado con los PDF, porque lo que aparentemente es homogéneo > (visualmente ves todos los documentos igual), resulta que no lo es, y te > encuentras "saltos" de página, códigos de cabeceras de tabla, etc. > Colocados > de forma diferente según el ejemplar de PDF. > Si quieres algo que no falle, tendrás que trabajarlo bastante para no dejar > margen de error (contemplando toda la casuística que puedas encontrar por > el > camino). En fin, perdona el rollo... > Suerte. > > > Isidro Hidalgo Arellano > Observatorio del Mercado de Trabajo > Consejería de Economía, Empresas y Empleo > http://www.castillalamancha.es/ > > > > -----Mensaje original----- > De: R-help-es [mailto:[email protected]] En nombre de Manuel > Spínola > Enviado el: viernes, 29 de septiembre de 2017 16:47 > Para: R <[email protected]> > Asunto: [R-es] Minería de testo en R > > Estimados miembros del grupo, > > Estoy buscando paquetes de R que permitan hacer minería de textos de > archivos PDF o Word que tengan una estructura tabular (cuadros) de > resultado > de talleres de trabajo donde se tratan diferentes ejes temáticos. > > Especifico esto porque he visto que algunos paquetes analizan directamente > texto de libros, tweets u otras fuentes donde no hay una estructura como > cuadros en el texto que se quiere analizar. > > Desde ya muchas gracias por la ayuda. > > Saludos, > > Manuel > > -- > *Manuel Spínola, Ph.D.* > Instituto Internacional en Conservación y Manejo de Vida Silvestre > Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA [email protected] > <[email protected]> [email protected] > Teléfono: (506) 8706 - 4662 > Personal website: Lobito de río <https://sites.google.com/ > site/lobitoderio/> > Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > [email protected] > https://stat.ethz.ch/mailman/listinfo/r-help-es > > -- *Manuel Spínola, Ph.D.* Instituto Internacional en Conservación y Manejo de Vida Silvestre Universidad Nacional Apartado 1350-3000 Heredia COSTA RICA [email protected] <[email protected]> [email protected] Teléfono: (506) 8706 - 4662 Personal website: Lobito de río <https://sites.google.com/site/lobitoderio/> Institutional website: ICOMVIS <http://www.icomvis.una.ac.cr/> [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list [email protected] https://stat.ethz.ch/mailman/listinfo/r-help-es
