Re: [R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-18 Por tema Isidro Hidalgo Arellano
Si lo necesitas, yo puedo pasarte el nombre de las localidades de Castilla-La 
Mancha de cuatro formas diferentes.

Un saludo

 

Isidro Hidalgo Arellano

Observatorio del Mercado de Trabajo

Consejería de Economía, Empresas y Empleo

 <http://www.castillalamancha.es/> http://www.castillalamancha.es/

 

 

 

De: R-help-es  En nombre de Maria Ruiz
Enviado el: domingo, 17 de marzo de 2019 19:17
Para: r-help-es@r-project.org
Asunto: [R-es] Ayuda para campo con numerico y texto con Problemas

 

Hola a todos, 

Soy nueva usando R y tengo unos problema en procesado de datos que quiero hacer 
en R.

 

Tengo un fichero de datos  en formato texto separado con ; (punto y coma).

Este fichero contiene las columnas:

Poblacion;Sexo;Nota; EdadP, EdadM

Tengo 2 problemas que no se como  tratar.

1.- Problema

La  columna Poblacion debo tenerla  siempre con la primera letra en mayúsculas 
y  tengo poblaciones  que tiene artículos o prepsosicones entre medias como por 
ejemplo: ( de, del,, las...)

Albaida del Aljarafe o  Santa Cruz de  Tenerife, tambien tengo algunas con 
Valencia, valencia, y (blanco)Valencia o Valencia(blanco) 

 

 

NO sé cémo tratar este dato para que solo aparezca en La primera letra  de cada 
palabra y no los enlace o artículos, es decir no debe aparecer: del o de .

 

2,. Problema

La columna Nota por  hay errores y los datos no todso son de tipo 7.8 o 8.9 

Parece que han errores y tengo algunos  6,5 o 6,9

ES decir han introducido la coma como separador decimal en vez de punto. 

 

Nota podria corregir los errores con otro programa pero quiero hacerlo todo con 
R.

 

Gracias y espero un pronta respuesta  

Adjunto un troz del fichero

 

 

Un trozo de ejemplo del fichero :

Poblacion;Sexo;Nota;EdadP;EdadM

  Valencia ;m;7.23;45;34

Albaida del Aljarafe;M;5.93;36;37

valencia;M;NA;34;35

Barcelona;M;6.33;37;29

Albalate de las Nogueras;  M;8.93;35;26

  Valencia ;M;7.23;29;44

Santa Cruz de Tenerife;  M   ;NA;26;23

Valencia;M;9.23;44;46

Valencia;  M   ;7.63;23;35

Valencia ;M;5.73;46;31

 Valencia;M;5.03;35;35

Valencia;M;NA;31;-24

Valencia;M   ;6.13;35;28

Albalate de las Nogueras;  M;7.63;24;37

 Valencia;M   ;7.53;28;26

 Valencia;  M;6.33;37;20

Santa Cruz de Tenerife;M;5.33;26;25

Santa cruz de Tenerife;  m;7.33;20;35

 Santa Cruz de tenerife;M;8.23;-25;39

Santa cruz de tenerife;M   ;6.93;35;36

valencia;  M;5.33;39;44

 Valencia;  M;7.73;36;46

  Valencia;M   ;6.23;44;35

 Valencia;M;6.43;40;31

Santa cruz de Tenerife;  m;6.83;36;35

valencia;M;5,73;39;24

  valencia;M;6.23;58;28

 valencia ;  m;7.03;50;37

Albalate de las Nogueras;  m;7.33;20;35

Albaida del Aljarafe;M;8.23;25;39


[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-17 Por tema Juan Abasolo
Se me ocurre, María, que si lo que tenés que hacer es diseñar hoy un
trabajo para desarrollarlo durante un período largo de tiempo (o a volver a
hacer el año  que viene y el siguiente y así), una buena manera sería,
hacer algo así:
1. Por un lado normalizar todos tus datos de alguna manera consistente

Tipo, pasar todos los nombres a minúsculas [tolower()] *las palmas*, *jerez
de la frontera* y cosas así. O todo mayúscula [toupper()], como más rabia
te de., y quitar los espacios del final y del principio que pudieran
tener., para evitar * santa cruz de tenerife * o cosas así.

stringr::str_trim(levels(tu.vector.de.nombres), 'left') # o rigth, claro

Con eso ya tenés los datos de alguna manera consistenete para trabajar. Te
falta resolver lo de presentar los datos tipo *Jerez de la Frontera*.
Como me parece que es un ĺío hacer algo que te ponga en mayúscula lo que
toca en mayúscula y en minúscula lo que toca, lo que haría es:
2. Generá otro fichero con los nombres oficiales (o como te los den) de los
pueblos. Mejor, si además los tenés divididos en comarcas / provincias /
comunidades autonomas / ...

medí las distancia de edición entre tu valor con el de la lista buena:
stringdist('jerez de la frontera', tolower('Jerez de la Frontera'), method
= 'lv')

La distancia = 0 es el pueblo que buscás. Con generar el índice de
correspondencias una sola vez, ya lo tenés, me parece.

Te comentaron lo de nombres en diferentes idiomas, también. Onda Orense /
Ourense, San Sebastián / Donostia... . Supongo que acerlo con dos columnas,
una para el nombre del sitio y otro para la denominación tradicional
castellana, se comprueba en las dos y cualquier distancia 0 es la correcta.




Hau idatzi du Javier Marcuzzi (javier.ruben.marcu...@gmail.com)
erabiltzaileak (2019 mar. 17, ig. (22:25)):

> Estimada María Ruiz
>
> Comprendo lo que usted dice, en realidad no son tantos datos para R, a mi
> me paso algo semejante con una consultora con informáticos, etc., pero los
> datos… U
>
> Puedes, es muy trabajoso, yo estuve un mes para resolver mi problema,
> básicamente tendrá que importar los datos de la mejor manera que pueda,
> luego ir buscando con expresiones regulares y cuánto recurso se le venga en
> mente para pasar el texto a formato de datos válido, seguramente algo
> andará bien, en un fragmento fallará, aparecerán casos con espacios en
> blanco, la misma palabra con mayúsculas o minúsculas, en otras palabras, un
> montón de posibilidades, lógicamente que a cada una debe contemplarla en R,
> y eso lleva horas, días, y mucho pero mucho ingenio con los datos, o mejor
> dicho, con el texto que debe ser pasado a datos para luego comenzar algún
> análisis. Con R se puede, pero el trabajo es tanto que yo no aceptaría el
> compromiso si lo veo muy complicado, salvo un presupuesto acorde, es un
> esfuerzo enorme que no todos comprenderán ni estarán dispuestos a
> compensar.
>
>
> Javier Rubén Marcuzzi
>
> El dom., 17 mar. 2019 a las 17:40, Francisco Rodríguez (<
> fjr...@hotmail.com>)
> escribió:
>
> > Por lo que intuyo. Vas a bajar a nivel de municipios?  Si es así hay que
> > trabajar con texto y va ser tedioso si hay varias CCAA. Hay sólo una
> > comunidad?  Si hay varias tendrás pb con los idiomas si bajas a
> municipio.
> > Si no te dan los ficheros normalizados te toca trabajar los textos. Si
> vas
> > a nivel provincia, sólo sería algunas columnas y corregir algunas cosas
> > pero algo de dificultad media - baja
> >
> >
> >
> > Enviado de Samsung Mobile
> >
> >
> > ---- Mensaje original ----
> > De: Maria Ruiz 
> > Fecha: 17/3/19 21:28 (GMT+01:00)
> > Para: r-help-es@r-project.org
> > Asunto: Re: [R-es] Ayuda para campo con numerico y texto con Problemas
> >
> > Por parte No puedo usar otra cosa que sea R, por motivos  varios, Uno de
> > ellos es  tporque quiero  hacer un script para introducir cada provincia
> > conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie
> > que si lo hago mas año seria muy pesado.
> >
> >
> >
> > Primero  que esta pasando que me mandan  los difrentes ficheros con datos
> > de diferentes provincias y para su posterior anàlisis y no puedo ir
> > mirarado los todos.
> >
> > Por otra parte tampoco tengo codigos munipales como indica Javier, sino
> > esos datos tal cual, ciudades. sin mas.
> >
> >
> >
> > No son pocos datos son  los alumnos que este año  2018 realizaron la
> > selectividad en uan comunida autònoma, mas 30.000.
> >
> > Se que debe  existir algun paramentro al ahora de importar el dataframe
> >
> >
> >
> > Dataset <- read.table("C:/Users/datos.csv", header=

Re: [R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-17 Por tema Javier Marcuzzi
Estimada María Ruiz

Comprendo lo que usted dice, en realidad no son tantos datos para R, a mi
me paso algo semejante con una consultora con informáticos, etc., pero los
datos… U

Puedes, es muy trabajoso, yo estuve un mes para resolver mi problema,
básicamente tendrá que importar los datos de la mejor manera que pueda,
luego ir buscando con expresiones regulares y cuánto recurso se le venga en
mente para pasar el texto a formato de datos válido, seguramente algo
andará bien, en un fragmento fallará, aparecerán casos con espacios en
blanco, la misma palabra con mayúsculas o minúsculas, en otras palabras, un
montón de posibilidades, lógicamente que a cada una debe contemplarla en R,
y eso lleva horas, días, y mucho pero mucho ingenio con los datos, o mejor
dicho, con el texto que debe ser pasado a datos para luego comenzar algún
análisis. Con R se puede, pero el trabajo es tanto que yo no aceptaría el
compromiso si lo veo muy complicado, salvo un presupuesto acorde, es un
esfuerzo enorme que no todos comprenderán ni estarán dispuestos a compensar.


Javier Rubén Marcuzzi

El dom., 17 mar. 2019 a las 17:40, Francisco Rodríguez ()
escribió:

> Por lo que intuyo. Vas a bajar a nivel de municipios?  Si es así hay que
> trabajar con texto y va ser tedioso si hay varias CCAA. Hay sólo una
> comunidad?  Si hay varias tendrás pb con los idiomas si bajas a municipio.
> Si no te dan los ficheros normalizados te toca trabajar los textos. Si vas
> a nivel provincia, sólo sería algunas columnas y corregir algunas cosas
> pero algo de dificultad media - baja
>
>
>
> Enviado de Samsung Mobile
>
>
>  Mensaje original 
> De: Maria Ruiz 
> Fecha: 17/3/19 21:28 (GMT+01:00)
> Para: r-help-es@r-project.org
> Asunto: Re: [R-es] Ayuda para campo con numerico y texto con Problemas
>
> Por parte No puedo usar otra cosa que sea R, por motivos  varios, Uno de
> ellos es  tporque quiero  hacer un script para introducir cada provincia
> conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie
> que si lo hago mas año seria muy pesado.
>
>
>
> Primero  que esta pasando que me mandan  los difrentes ficheros con datos
> de diferentes provincias y para su posterior anàlisis y no puedo ir
> mirarado los todos.
>
> Por otra parte tampoco tengo codigos munipales como indica Javier, sino
> esos datos tal cual, ciudades. sin mas.
>
>
>
> No son pocos datos son  los alumnos que este año  2018 realizaron la
> selectividad en uan comunida autònoma, mas 30.000.
>
> Se que debe  existir algun paramentro al ahora de importar el dataframe
>
>
>
> Dataset <- read.table("C:/Users/datos.csv", header=TRUE, sep=",",
> na.strings="NA", dec=".", strip.white=TRUE)
>
>
>
>
>  M. JOsé
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> [[alternative HTML version deleted]]
>
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-17 Por tema Maria Ruiz
Por parte No puedo usar otra cosa que sea R, por motivos  varios, Uno de
ellos es  tporque quiero  hacer un script para introducir cada provincia
conforme llegue, y es son muchos datos para hacerlo con excel, y tambnie
que si lo hago mas año seria muy pesado.



Primero  que esta pasando que me mandan  los difrentes ficheros con datos
de diferentes provincias y para su posterior anàlisis y no puedo ir
mirarado los todos.

Por otra parte tampoco tengo codigos munipales como indica Javier, sino
esos datos tal cual, ciudades. sin mas.



No son pocos datos son  los alumnos que este año  2018 realizaron la
selectividad en uan comunida autònoma, mas 30.000.

Se que debe  existir algun paramentro al ahora de importar el dataframe



Dataset <- read.table("C:/Users/datos.csv", header=TRUE, sep=",",
na.strings="NA", dec=".", strip.white=TRUE)




 M. JOsé

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


Re: [R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-17 Por tema Javier Marcuzzi
Estimada María Ruiz.
Lo más simple, si son pocos datos, arregle los datos con excel, una base de
datos, etc. Limpieza de datos fuera de R. Luego, las palabras y su trabajo,
mire tm, texto mining.
Saludos
Javier Rubén Marcuzzi

El dom., 17 de mar. de 2019 3:17 PM, Maria Ruiz 
escribió:

> Hola a todos,
> Soy nueva usando R y tengo unos problema en procesado de datos que quiero
> hacer en R.
>
> Tengo un fichero de datos  en formato texto separado con ; (punto y coma).
> Este fichero contiene las columnas:
> Poblacion;Sexo;Nota; EdadP, EdadM
> Tengo 2 problemas que no se como  tratar.
> 1.- Problema
> La  columna *Poblacion* debo tenerla  siempre con la primera letra en
> mayúsculas y  tengo poblaciones  que tiene artículos o prepsosicones entre
> medias como por ejemplo: ( de, del,, las...)
> Albaida *de*l Aljarafe o  Santa Cruz de  Tenerife, tambien tengo algunas
> con Valencia, valencia, y (blanco)Valencia o Valencia(blanco)
>
>
> NO sé cémo tratar este dato para que solo aparezca en La primera letra  de
> cada palabra y no los enlace o artículos, es decir no debe aparecer: del o
> de .
>
> 2,. Problema
> La columna *Nota* por  hay errores y los datos no todso son de tipo 7.8 o
> 8.9
> Parece que han errores y tengo algunos  6,5 o 6,9
> ES decir han introducido la coma como separador decimal en vez de punto.
>
> Nota podria corregir los errores con otro programa pero quiero hacerlo
> todo con R.
>
> Gracias y espero un pronta respuesta
> Adjunto un troz del fichero
>
>
> Un trozo de ejemplo del fichero :
>
> Poblacion;Sexo;Nota;EdadP;EdadM
>
>   Valencia ;m;7.23;45;34
>
> Albaida del Aljarafe;M;5.93;36;37
>
> valencia;M;NA;34;35
>
> Barcelona;M;6.33;37;29
>
> Albalate de las Nogueras;  M;8.93;35;26
>
>   Valencia ;M;7.23;29;44
>
> Santa Cruz de Tenerife;  M   ;NA;26;23
>
> Valencia;M;9.23;44;46
>
> Valencia;  M   ;7.63;23;35
>
> Valencia ;M;5.73;46;31
>
>  Valencia;M;5.03;35;35
>
> Valencia;M;NA;31;-24
>
> Valencia;M   ;6.13;35;28
>
> Albalate de las Nogueras;  M;7.63;24;37
>
>  Valencia;M   ;7.53;28;26
>
>  Valencia;  M;6.33;37;20
>
> Santa Cruz de Tenerife;M;5.33;26;25
>
> Santa cruz de Tenerife;  m;7.33;20;35
>
>  Santa Cruz de tenerife;M;8.23;-25;39
>
> Santa cruz de tenerife;M   ;6.93;35;36
>
> valencia;  M;5.33;39;44
>
>  Valencia;  M;7.73;36;46
>
>   Valencia;M   ;6.23;44;35
>
>  Valencia;M;6.43;40;31
>
> Santa cruz de Tenerife;  m;6.83;36;35
>
> valencia;M;5,73;39;24
>
>   valencia;M;6.23;58;28
>
>  valencia ;  m;7.03;50;37
>
> Albalate de las Nogueras;  m;7.33;20;35
>
> Albaida del Aljarafe;M;8.23;25;39
> ___
> R-help-es mailing list
> R-help-es@r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

[[alternative HTML version deleted]]

___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es


[R-es] Ayuda para campo con numerico y texto con Problemas

2019-03-17 Por tema Maria Ruiz
Hola a todos,
Soy nueva usando R y tengo unos problema en procesado de datos que quiero
hacer en R.

Tengo un fichero de datos  en formato texto separado con ; (punto y coma).
Este fichero contiene las columnas:
Poblacion;Sexo;Nota; EdadP, EdadM
Tengo 2 problemas que no se como  tratar.
1.- Problema
La  columna *Poblacion* debo tenerla  siempre con la primera letra en
mayúsculas y  tengo poblaciones  que tiene artículos o prepsosicones entre
medias como por ejemplo: ( de, del,, las...)
Albaida *de*l Aljarafe o  Santa Cruz de  Tenerife, tambien tengo algunas
con Valencia, valencia, y (blanco)Valencia o Valencia(blanco)


NO sé cémo tratar este dato para que solo aparezca en La primera letra  de
cada palabra y no los enlace o artículos, es decir no debe aparecer: del o
de .

2,. Problema
La columna *Nota* por  hay errores y los datos no todso son de tipo 7.8 o
8.9
Parece que han errores y tengo algunos  6,5 o 6,9
ES decir han introducido la coma como separador decimal en vez de punto.

Nota podria corregir los errores con otro programa pero quiero hacerlo todo
con R.

Gracias y espero un pronta respuesta
Adjunto un troz del fichero


Un trozo de ejemplo del fichero :

Poblacion;Sexo;Nota;EdadP;EdadM

  Valencia ;m;7.23;45;34

Albaida del Aljarafe;M;5.93;36;37

valencia;M;NA;34;35

Barcelona;M;6.33;37;29

Albalate de las Nogueras;  M;8.93;35;26

  Valencia ;M;7.23;29;44

Santa Cruz de Tenerife;  M   ;NA;26;23

Valencia;M;9.23;44;46

Valencia;  M   ;7.63;23;35

Valencia ;M;5.73;46;31

 Valencia;M;5.03;35;35

Valencia;M;NA;31;-24

Valencia;M   ;6.13;35;28

Albalate de las Nogueras;  M;7.63;24;37

 Valencia;M   ;7.53;28;26

 Valencia;  M;6.33;37;20

Santa Cruz de Tenerife;M;5.33;26;25

Santa cruz de Tenerife;  m;7.33;20;35

 Santa Cruz de tenerife;M;8.23;-25;39

Santa cruz de tenerife;M   ;6.93;35;36

valencia;  M;5.33;39;44

 Valencia;  M;7.73;36;46

  Valencia;M   ;6.23;44;35

 Valencia;M;6.43;40;31

Santa cruz de Tenerife;  m;6.83;36;35

valencia;M;5,73;39;24

  valencia;M;6.23;58;28

 valencia ;  m;7.03;50;37

Albalate de las Nogueras;  m;7.33;20;35

Albaida del Aljarafe;M;8.23;25;39


notas_selectivo.csv
Description: MS-Excel spreadsheet
___
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es