Re: [R-es] (sin asunto)

Carlos Ortega Thu, 10 Jul 2025 02:25:15 -0700

Hola,

¿Qué tal?
No sé si ya está resuelto el problema...


Una alternativa puede ser esta.

#-----------------
> # Cargar la librería rvest
> library(rvest)
>
> # Definir el HTML de ejemplo
> x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
Autobahnpolizei)</span></h2>'
>
> # Parsear el HTML
> html_content <- read_html(x)
>
> # Extraer solo el nodo de texto dentro de <h2> que no esté en <span>
> result <- html_content %>%
+   html_node(xpath = "//h2/text()") %>%
+   html_text(trim = TRUE)
>
> # Mostrar el resultado
> print(result)
[1] "Alerta Cobra"
#-----------------

Gracias,
Carlos Ortega
www.qualityexcellence.es

El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (<
[email protected]>) escribió:

> Buenos días.
>
> Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea
> feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me
> di cuenta que el texto que está dentro del *span* está siempre dentro de
> unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay
> dentro de los susodichos paréntesis y listo.
>
> A veces es más sencillo de lo que parece. :D
>
> muchas gracias por todo. un saludo
>
> El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (<
> [email protected]>) escribió:
>
> > Estimado Rubén
> >
> > No importa, el código es algo más largo pero no tanto, sería algo como :
> >
> > Si existe lo siguiente
> > Borrar esto
> > So no existe
> > No borrar nada
> >
> > Para mi gusto no iría por expresiones regulares, por si las dudas en
> algún
> > caso borro de más, hay que saber dominarlas, pero también son una
> > alternativa.
> >
> > Aunque si yo quiero, para el webscraping, puedo crear código para
> > enloquecer a cualquier análisis, por lo cuál, es posible que lo que usted
> > analiza tenga algo para “complicarle la vida”.
> >
> > Javier Marcuzzi
> >
> > El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez <
> > [email protected]> escribió:
> >
> > Buenas noches Javier,
> >
> > Gracias por la respuesta, yo también lo había pensado. Creo que no me
> vale
> > porque el span dentro del h2 no se repite en todos los casos.
> >
> > Rubén.
> >
> > El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi <
> > [email protected]> va escriure:
> >
> >> Buenas tardes Rubén
> >>
> >> Lo que usted desea no se puede, pero hay una solución. Primero, si
> >> selecciona el h2 lo que está dentro de esta etiqueta se selecciona.
> >> Segundo, lo que está mal es la selección, sin embargo, puede solucionar
> >> esta buscando y borrando el código <span clas…. , supuestamente este se
> >> podría repetir en todos los datos, por lo cuál el localizarlo y
> eliminarlo
> >> sería una solución.
> >>
> >> Por lo cuál al restallado de rvest tendría que procesarlo con otro
> script
> >> en R que limpie el código repetido en todos los registros.
> >>
> >> ¿Esa solución le es útil?
> >>
> >> Javier Marcuzzi
> >>
> >> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez <
> >> [email protected]> escribió:
> >> >
> >> > Hola, buenas tardes,
> >> >
> >> > Estoy usando *rvest*  para hacer webscraping y me surge una duda con
> el
> >> > siguiente codigo:
> >> >
> >> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
> >> > Autobahnpolizei)</span>\n</h2>'*
> >> > *x %>% read_html() %>% html_nodes(xpath = "//h2")*
> >> >
> >> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando
> >> *span*.
> >> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los
> >> > típicos operadores como *!* o *:not(span)*, pero no ha resultado bien.
> >> >
> >> > Una orientación de como hacerlo me vendría bien, muchas gracias de
> >> antemano.
> >> >
> >> > --
> >> > Rubén.
> >> >
> >> >       [[alternative HTML version deleted]]
> >> >
> >> > _______________________________________________
> >> > R-help-es mailing list
> >> > [email protected]
> >> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >>
> >>
> >
>
> --
> Rubén.
>
>         [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> [email protected]
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>


-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
[email protected]
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] (sin asunto)

Responder a