Re: [R-es] (sin asunto)

Ruben Tobalina Ramirez Thu, 10 Jul 2025 02:43:53 -0700

uau, esto si es magia. Ese uso del text() no lo conocía, pensaba que cogia
también el texto del span.


Muchas gracias, un saludo

El jue, 10 jul 2025 a las 11:24, Carlos Ortega (<c...@qualityexcellence.es>)
escribió:

> Hola,
>
> ¿Qué tal?
> No sé si ya está resuelto el problema...
>
> Una alternativa puede ser esta.
>
> #-----------------
> > # Cargar la librería rvest
> > library(rvest)
> >
> > # Definir el HTML de ejemplo
> > x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
> Autobahnpolizei)</span></h2>'
> >
> > # Parsear el HTML
> > html_content <- read_html(x)
> >
> > # Extraer solo el nodo de texto dentro de <h2> que no esté en <span>
> > result <- html_content %>%
> +   html_node(xpath = "//h2/text()") %>%
> +   html_text(trim = TRUE)
> >
> > # Mostrar el resultado
> > print(result)
> [1] "Alerta Cobra"
> #-----------------
>
> Gracias,
> Carlos Ortega
> www.qualityexcellence.es
>
> El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (<
> lagrimaescr...@gmail.com>) escribió:
>
>> Buenos días.
>>
>> Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea
>> feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me
>> di cuenta que el texto que está dentro del *span* está siempre dentro de
>> unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay
>> dentro de los susodichos paréntesis y listo.
>>
>> A veces es más sencillo de lo que parece. :D
>>
>> muchas gracias por todo. un saludo
>>
>> El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (<
>> javier.ruben.marcu...@gmail.com>) escribió:
>>
>> > Estimado Rubén
>> >
>> > No importa, el código es algo más largo pero no tanto, sería algo como :
>> >
>> > Si existe lo siguiente
>> > Borrar esto
>> > So no existe
>> > No borrar nada
>> >
>> > Para mi gusto no iría por expresiones regulares, por si las dudas en
>> algún
>> > caso borro de más, hay que saber dominarlas, pero también son una
>> > alternativa.
>> >
>> > Aunque si yo quiero, para el webscraping, puedo crear código para
>> > enloquecer a cualquier análisis, por lo cuál, es posible que lo que
>> usted
>> > analiza tenga algo para “complicarle la vida”.
>> >
>> > Javier Marcuzzi
>> >
>> > El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez <
>> > lagrimaescr...@gmail.com> escribió:
>> >
>> > Buenas noches Javier,
>> >
>> > Gracias por la respuesta, yo también lo había pensado. Creo que no me
>> vale
>> > porque el span dentro del h2 no se repite en todos los casos.
>> >
>> > Rubén.
>> >
>> > El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi <
>> > javier.ruben.marcu...@gmail.com> va escriure:
>> >
>> >> Buenas tardes Rubén
>> >>
>> >> Lo que usted desea no se puede, pero hay una solución. Primero, si
>> >> selecciona el h2 lo que está dentro de esta etiqueta se selecciona.
>> >> Segundo, lo que está mal es la selección, sin embargo, puede solucionar
>> >> esta buscando y borrando el código <span clas…. , supuestamente este se
>> >> podría repetir en todos los datos, por lo cuál el localizarlo y
>> eliminarlo
>> >> sería una solución.
>> >>
>> >> Por lo cuál al restallado de rvest tendría que procesarlo con otro
>> script
>> >> en R que limpie el código repetido en todos los registros.
>> >>
>> >> ¿Esa solución le es útil?
>> >>
>> >> Javier Marcuzzi
>> >>
>> >> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez <
>> >> lagrimaescr...@gmail.com> escribió:
>> >> >
>> >> > Hola, buenas tardes,
>> >> >
>> >> > Estoy usando *rvest*  para hacer webscraping y me surge una duda con
>> el
>> >> > siguiente codigo:
>> >> >
>> >> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
>> >> > Autobahnpolizei)</span>\n</h2>'*
>> >> > *x %>% read_html() %>% html_nodes(xpath = "//h2")*
>> >> >
>> >> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando
>> >> *span*.
>> >> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los
>> >> > típicos operadores como *!* o *:not(span)*, pero no ha resultado
>> bien.
>> >> >
>> >> > Una orientación de como hacerlo me vendría bien, muchas gracias de
>> >> antemano.
>> >> >
>> >> > --
>> >> > Rubén.
>> >> >
>> >> >       [[alternative HTML version deleted]]
>> >> >
>> >> > _______________________________________________
>> >> > R-help-es mailing list
>> >> > R-help-es@r-project.org
>> >> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >>
>> >>
>> >
>>
>> --
>> Rubén.
>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es@r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>


-- 
Rubén.

        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es@r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es

Re: [R-es] (sin asunto)

Responder a