Re: [R-es] Ayuda para campo con numerico y texto con Problemas
Si lo necesitas, yo puedo pasarte el nombre de las localidades de Castilla-La Mancha de cuatro formas diferentes. Un saludo Isidro Hidalgo Arellano Observatorio del Mercado de Trabajo Consejería de Economía, Empresas y Empleo <http://www.castillalamancha.es/> http://www.castillalamancha.es/ De: R-help-es En nombre de Maria Ruiz Enviado el: domingo, 17 de marzo de 2019 19:17 Para: r-help-es@r-project.org Asunto: [R-es] Ayuda para campo con numerico y texto con Problemas Hola a todos, Soy nueva usando R y tengo unos problema en procesado de datos que quiero hacer en R. Tengo un fichero de datos en formato texto separado con ; (punto y coma). Este fichero contiene las columnas: Poblacion;Sexo;Nota; EdadP, EdadM Tengo 2 problemas que no se como tratar. 1.- Problema La columna Poblacion debo tenerla siempre con la primera letra en mayúsculas y tengo poblaciones que tiene artículos o prepsosicones entre medias como por ejemplo: ( de, del,, las...) Albaida del Aljarafe o Santa Cruz de Tenerife, tambien tengo algunas con Valencia, valencia, y (blanco)Valencia o Valencia(blanco) NO sé cémo tratar este dato para que solo aparezca en La primera letra de cada palabra y no los enlace o artículos, es decir no debe aparecer: del o de . 2,. Problema La columna Nota por hay errores y los datos no todso son de tipo 7.8 o 8.9 Parece que han errores y tengo algunos 6,5 o 6,9 ES decir han introducido la coma como separador decimal en vez de punto. Nota podria corregir los errores con otro programa pero quiero hacerlo todo con R. Gracias y espero un pronta respuesta Adjunto un troz del fichero Un trozo de ejemplo del fichero : Poblacion;Sexo;Nota;EdadP;EdadM Valencia ;m;7.23;45;34 Albaida del Aljarafe;M;5.93;36;37 valencia;M;NA;34;35 Barcelona;M;6.33;37;29 Albalate de las Nogueras; M;8.93;35;26 Valencia ;M;7.23;29;44 Santa Cruz de Tenerife; M ;NA;26;23 Valencia;M;9.23;44;46 Valencia; M ;7.63;23;35 Valencia ;M;5.73;46;31 Valencia;M;5.03;35;35 Valencia;M;NA;31;-24 Valencia;M ;6.13;35;28 Albalate de las Nogueras; M;7.63;24;37 Valencia;M ;7.53;28;26 Valencia; M;6.33;37;20 Santa Cruz de Tenerife;M;5.33;26;25 Santa cruz de Tenerife; m;7.33;20;35 Santa Cruz de tenerife;M;8.23;-25;39 Santa cruz de tenerife;M ;6.93;35;36 valencia; M;5.33;39;44 Valencia; M;7.73;36;46 Valencia;M ;6.23;44;35 Valencia;M;6.43;40;31 Santa cruz de Tenerife; m;6.83;36;35 valencia;M;5,73;39;24 valencia;M;6.23;58;28 valencia ; m;7.03;50;37 Albalate de las Nogueras; m;7.33;20;35 Albaida del Aljarafe;M;8.23;25;39 [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Re: [R-es] Ayuda para campo con numerico y texto con Problemas
Se me ocurre, María, que si lo que tenés que hacer es diseñar hoy un trabajo para desarrollarlo durante un período largo de tiempo (o a volver a hacer el año que viene y el siguiente y así), una buena manera sería, hacer algo así: 1. Por un lado normalizar todos tus datos de alguna manera consistente Tipo, pasar todos los nombres a minúsculas [tolower()] *las palmas*, *jerez de la frontera* y cosas así. O todo mayúscula [toupper()], como más rabia te de., y quitar los espacios del final y del principio que pudieran tener., para evitar * santa cruz de tenerife * o cosas así. stringr::str_trim(levels(tu.vector.de.nombres), 'left') # o rigth, claro Con eso ya tenés los datos de alguna manera consistenete para trabajar. Te falta resolver lo de presentar los datos tipo *Jerez de la Frontera*. Como me parece que es un ĺío hacer algo que te ponga en mayúscula lo que toca en mayúscula y en minúscula lo que toca, lo que haría es: 2. Generá otro fichero con los nombres oficiales (o como te los den) de los pueblos. Mejor, si además los tenés divididos en comarcas / provincias / comunidades autonomas / ... medí las distancia de edición entre tu valor con el de la lista buena: stringdist('jerez de la frontera', tolower('Jerez de la Frontera'), method = 'lv') La distancia = 0 es el pueblo que buscás. Con generar el índice de correspondencias una sola vez, ya lo tenés, me parece. Te comentaron lo de nombres en diferentes idiomas, también. Onda Orense / Ourense, San Sebastián / Donostia... . Supongo que acerlo con dos columnas, una para el nombre del sitio y otro para la denominación tradicional castellana, se comprueba en las dos y cualquier distancia 0 es la correcta. Hau idatzi du Javier Marcuzzi (javier.ruben.marcu...@gmail.com) erabiltzaileak (2019 mar. 17, ig. (22:25)): > Estimada María Ruiz > > Comprendo lo que usted dice, en realidad no son tantos datos para R, a mi > me paso algo semejante con una consultora con informáticos, etc., pero los > datos… U > > Puedes, es muy trabajoso, yo estuve un mes para resolver mi problema, > básicamente tendrá que importar los datos de la mejor manera que pueda, > luego ir buscando con expresiones regulares y cuánto recurso se le venga en > mente para pasar el texto a formato de datos válido, seguramente algo > andará bien, en un fragmento fallará, aparecerán casos con espacios en > blanco, la misma palabra con mayúsculas o minúsculas, en otras palabras, un > montón de posibilidades, lógicamente que a cada una debe contemplarla en R, > y eso lleva horas, días, y mucho pero mucho ingenio con los datos, o mejor > dicho, con el texto que debe ser pasado a datos para luego comenzar algún > análisis. Con R se puede, pero el trabajo es tanto que yo no aceptaría el > compromiso si lo veo muy complicado, salvo un presupuesto acorde, es un > esfuerzo enorme que no todos comprenderán ni estarán dispuestos a > compensar. > > > Javier Rubén Marcuzzi > > El dom., 17 mar. 2019 a las 17:40, Francisco Rodríguez (< > fjr...@hotmail.com>) > escribió: > > > Por lo que intuyo. Vas a bajar a nivel de municipios? Si es así hay que > > trabajar con texto y va ser tedioso si hay varias CCAA. Hay sólo una > > comunidad? Si hay varias tendrás pb con los idiomas si bajas a > municipio. > > Si no te dan los ficheros normalizados te toca trabajar los textos. Si > vas > > a nivel provincia, sólo sería algunas columnas y corregir algunas cosas > > pero algo de dificultad media - baja > > > > > > > > Enviado de Samsung Mobile > > > > > > ---- Mensaje original ---- > > De: Maria Ruiz > > Fecha: 17/3/19 21:28 (GMT+01:00) > > Para: r-help-es@r-project.org > > Asunto: Re: [R-es] Ayuda para campo con numerico y texto con Problemas > > > > Por parte No puedo usar otra cosa que sea R, por motivos varios, Uno de > > ellos es tporque quiero hacer un script para introducir cada provincia > > conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie > > que si lo hago mas año seria muy pesado. > > > > > > > > Primero que esta pasando que me mandan los difrentes ficheros con datos > > de diferentes provincias y para su posterior anàlisis y no puedo ir > > mirarado los todos. > > > > Por otra parte tampoco tengo codigos munipales como indica Javier, sino > > esos datos tal cual, ciudades. sin mas. > > > > > > > > No son pocos datos son los alumnos que este año 2018 realizaron la > > selectividad en uan comunida autònoma, mas 30.000. > > > > Se que debe existir algun paramentro al ahora de importar el dataframe > > > > > > > > Dataset <- read.table("C:/Users/datos.csv", header=
Re: [R-es] Ayuda para campo con numerico y texto con Problemas
Estimada María Ruiz Comprendo lo que usted dice, en realidad no son tantos datos para R, a mi me paso algo semejante con una consultora con informáticos, etc., pero los datos… U Puedes, es muy trabajoso, yo estuve un mes para resolver mi problema, básicamente tendrá que importar los datos de la mejor manera que pueda, luego ir buscando con expresiones regulares y cuánto recurso se le venga en mente para pasar el texto a formato de datos válido, seguramente algo andará bien, en un fragmento fallará, aparecerán casos con espacios en blanco, la misma palabra con mayúsculas o minúsculas, en otras palabras, un montón de posibilidades, lógicamente que a cada una debe contemplarla en R, y eso lleva horas, días, y mucho pero mucho ingenio con los datos, o mejor dicho, con el texto que debe ser pasado a datos para luego comenzar algún análisis. Con R se puede, pero el trabajo es tanto que yo no aceptaría el compromiso si lo veo muy complicado, salvo un presupuesto acorde, es un esfuerzo enorme que no todos comprenderán ni estarán dispuestos a compensar. Javier Rubén Marcuzzi El dom., 17 mar. 2019 a las 17:40, Francisco Rodríguez () escribió: > Por lo que intuyo. Vas a bajar a nivel de municipios? Si es así hay que > trabajar con texto y va ser tedioso si hay varias CCAA. Hay sólo una > comunidad? Si hay varias tendrás pb con los idiomas si bajas a municipio. > Si no te dan los ficheros normalizados te toca trabajar los textos. Si vas > a nivel provincia, sólo sería algunas columnas y corregir algunas cosas > pero algo de dificultad media - baja > > > > Enviado de Samsung Mobile > > > Mensaje original > De: Maria Ruiz > Fecha: 17/3/19 21:28 (GMT+01:00) > Para: r-help-es@r-project.org > Asunto: Re: [R-es] Ayuda para campo con numerico y texto con Problemas > > Por parte No puedo usar otra cosa que sea R, por motivos varios, Uno de > ellos es tporque quiero hacer un script para introducir cada provincia > conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie > que si lo hago mas año seria muy pesado. > > > > Primero que esta pasando que me mandan los difrentes ficheros con datos > de diferentes provincias y para su posterior anàlisis y no puedo ir > mirarado los todos. > > Por otra parte tampoco tengo codigos munipales como indica Javier, sino > esos datos tal cual, ciudades. sin mas. > > > > No son pocos datos son los alumnos que este año 2018 realizaron la > selectividad en uan comunida autònoma, mas 30.000. > > Se que debe existir algun paramentro al ahora de importar el dataframe > > > > Dataset <- read.table("C:/Users/datos.csv", header=TRUE, sep=",", > na.strings="NA", dec=".", strip.white=TRUE) > > > > > M. JOsé > > [[alternative HTML version deleted]] > > ___ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > > [[alternative HTML version deleted]] > > ___ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Re: [R-es] Ayuda para campo con numerico y texto con Problemas
Por parte No puedo usar otra cosa que sea R, por motivos varios, Uno de ellos es tporque quiero hacer un script para introducir cada provincia conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie que si lo hago mas año seria muy pesado. Primero que esta pasando que me mandan los difrentes ficheros con datos de diferentes provincias y para su posterior anàlisis y no puedo ir mirarado los todos. Por otra parte tampoco tengo codigos munipales como indica Javier, sino esos datos tal cual, ciudades. sin mas. No son pocos datos son los alumnos que este año 2018 realizaron la selectividad en uan comunida autònoma, mas 30.000. Se que debe existir algun paramentro al ahora de importar el dataframe Dataset <- read.table("C:/Users/datos.csv", header=TRUE, sep=",", na.strings="NA", dec=".", strip.white=TRUE) M. JOsé [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
Re: [R-es] Ayuda para campo con numerico y texto con Problemas
Estimada María Ruiz. Lo más simple, si son pocos datos, arregle los datos con excel, una base de datos, etc. Limpieza de datos fuera de R. Luego, las palabras y su trabajo, mire tm, texto mining. Saludos Javier Rubén Marcuzzi El dom., 17 de mar. de 2019 3:17 PM, Maria Ruiz escribió: > Hola a todos, > Soy nueva usando R y tengo unos problema en procesado de datos que quiero > hacer en R. > > Tengo un fichero de datos en formato texto separado con ; (punto y coma). > Este fichero contiene las columnas: > Poblacion;Sexo;Nota; EdadP, EdadM > Tengo 2 problemas que no se como tratar. > 1.- Problema > La columna *Poblacion* debo tenerla siempre con la primera letra en > mayúsculas y tengo poblaciones que tiene artículos o prepsosicones entre > medias como por ejemplo: ( de, del,, las...) > Albaida *de*l Aljarafe o Santa Cruz de Tenerife, tambien tengo algunas > con Valencia, valencia, y (blanco)Valencia o Valencia(blanco) > > > NO sé cémo tratar este dato para que solo aparezca en La primera letra de > cada palabra y no los enlace o artículos, es decir no debe aparecer: del o > de . > > 2,. Problema > La columna *Nota* por hay errores y los datos no todso son de tipo 7.8 o > 8.9 > Parece que han errores y tengo algunos 6,5 o 6,9 > ES decir han introducido la coma como separador decimal en vez de punto. > > Nota podria corregir los errores con otro programa pero quiero hacerlo > todo con R. > > Gracias y espero un pronta respuesta > Adjunto un troz del fichero > > > Un trozo de ejemplo del fichero : > > Poblacion;Sexo;Nota;EdadP;EdadM > > Valencia ;m;7.23;45;34 > > Albaida del Aljarafe;M;5.93;36;37 > > valencia;M;NA;34;35 > > Barcelona;M;6.33;37;29 > > Albalate de las Nogueras; M;8.93;35;26 > > Valencia ;M;7.23;29;44 > > Santa Cruz de Tenerife; M ;NA;26;23 > > Valencia;M;9.23;44;46 > > Valencia; M ;7.63;23;35 > > Valencia ;M;5.73;46;31 > > Valencia;M;5.03;35;35 > > Valencia;M;NA;31;-24 > > Valencia;M ;6.13;35;28 > > Albalate de las Nogueras; M;7.63;24;37 > > Valencia;M ;7.53;28;26 > > Valencia; M;6.33;37;20 > > Santa Cruz de Tenerife;M;5.33;26;25 > > Santa cruz de Tenerife; m;7.33;20;35 > > Santa Cruz de tenerife;M;8.23;-25;39 > > Santa cruz de tenerife;M ;6.93;35;36 > > valencia; M;5.33;39;44 > > Valencia; M;7.73;36;46 > > Valencia;M ;6.23;44;35 > > Valencia;M;6.43;40;31 > > Santa cruz de Tenerife; m;6.83;36;35 > > valencia;M;5,73;39;24 > > valencia;M;6.23;58;28 > > valencia ; m;7.03;50;37 > > Albalate de las Nogueras; m;7.33;20;35 > > Albaida del Aljarafe;M;8.23;25;39 > ___ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > [[alternative HTML version deleted]] ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es
[R-es] Ayuda para campo con numerico y texto con Problemas
Hola a todos, Soy nueva usando R y tengo unos problema en procesado de datos que quiero hacer en R. Tengo un fichero de datos en formato texto separado con ; (punto y coma). Este fichero contiene las columnas: Poblacion;Sexo;Nota; EdadP, EdadM Tengo 2 problemas que no se como tratar. 1.- Problema La columna *Poblacion* debo tenerla siempre con la primera letra en mayúsculas y tengo poblaciones que tiene artículos o prepsosicones entre medias como por ejemplo: ( de, del,, las...) Albaida *de*l Aljarafe o Santa Cruz de Tenerife, tambien tengo algunas con Valencia, valencia, y (blanco)Valencia o Valencia(blanco) NO sé cémo tratar este dato para que solo aparezca en La primera letra de cada palabra y no los enlace o artículos, es decir no debe aparecer: del o de . 2,. Problema La columna *Nota* por hay errores y los datos no todso son de tipo 7.8 o 8.9 Parece que han errores y tengo algunos 6,5 o 6,9 ES decir han introducido la coma como separador decimal en vez de punto. Nota podria corregir los errores con otro programa pero quiero hacerlo todo con R. Gracias y espero un pronta respuesta Adjunto un troz del fichero Un trozo de ejemplo del fichero : Poblacion;Sexo;Nota;EdadP;EdadM Valencia ;m;7.23;45;34 Albaida del Aljarafe;M;5.93;36;37 valencia;M;NA;34;35 Barcelona;M;6.33;37;29 Albalate de las Nogueras; M;8.93;35;26 Valencia ;M;7.23;29;44 Santa Cruz de Tenerife; M ;NA;26;23 Valencia;M;9.23;44;46 Valencia; M ;7.63;23;35 Valencia ;M;5.73;46;31 Valencia;M;5.03;35;35 Valencia;M;NA;31;-24 Valencia;M ;6.13;35;28 Albalate de las Nogueras; M;7.63;24;37 Valencia;M ;7.53;28;26 Valencia; M;6.33;37;20 Santa Cruz de Tenerife;M;5.33;26;25 Santa cruz de Tenerife; m;7.33;20;35 Santa Cruz de tenerife;M;8.23;-25;39 Santa cruz de tenerife;M ;6.93;35;36 valencia; M;5.33;39;44 Valencia; M;7.73;36;46 Valencia;M ;6.23;44;35 Valencia;M;6.43;40;31 Santa cruz de Tenerife; m;6.83;36;35 valencia;M;5,73;39;24 valencia;M;6.23;58;28 valencia ; m;7.03;50;37 Albalate de las Nogueras; m;7.33;20;35 Albaida del Aljarafe;M;8.23;25;39 notas_selectivo.csv Description: MS-Excel spreadsheet ___ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es