uau, esto si es magia. Ese uso del text() no lo conocía, pensaba que cogia también el texto del span.
Muchas gracias, un saludo El jue, 10 jul 2025 a las 11:24, Carlos Ortega (<c...@qualityexcellence.es>) escribió: > Hola, > > ¿Qué tal? > No sé si ya está resuelto el problema... > > Una alternativa puede ser esta. > > #----------------- > > # Cargar la librería rvest > > library(rvest) > > > > # Definir el HTML de ejemplo > > x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die > Autobahnpolizei)</span></h2>' > > > > # Parsear el HTML > > html_content <- read_html(x) > > > > # Extraer solo el nodo de texto dentro de <h2> que no esté en <span> > > result <- html_content %>% > + html_node(xpath = "//h2/text()") %>% > + html_text(trim = TRUE) > > > > # Mostrar el resultado > > print(result) > [1] "Alerta Cobra" > #----------------- > > Gracias, > Carlos Ortega > www.qualityexcellence.es > > El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (< > lagrimaescr...@gmail.com>) escribió: > >> Buenos días. >> >> Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea >> feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me >> di cuenta que el texto que está dentro del *span* está siempre dentro de >> unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay >> dentro de los susodichos paréntesis y listo. >> >> A veces es más sencillo de lo que parece. :D >> >> muchas gracias por todo. un saludo >> >> El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (< >> javier.ruben.marcu...@gmail.com>) escribió: >> >> > Estimado Rubén >> > >> > No importa, el código es algo más largo pero no tanto, sería algo como : >> > >> > Si existe lo siguiente >> > Borrar esto >> > So no existe >> > No borrar nada >> > >> > Para mi gusto no iría por expresiones regulares, por si las dudas en >> algún >> > caso borro de más, hay que saber dominarlas, pero también son una >> > alternativa. >> > >> > Aunque si yo quiero, para el webscraping, puedo crear código para >> > enloquecer a cualquier análisis, por lo cuál, es posible que lo que >> usted >> > analiza tenga algo para “complicarle la vida”. >> > >> > Javier Marcuzzi >> > >> > El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez < >> > lagrimaescr...@gmail.com> escribió: >> > >> > Buenas noches Javier, >> > >> > Gracias por la respuesta, yo también lo había pensado. Creo que no me >> vale >> > porque el span dentro del h2 no se repite en todos los casos. >> > >> > Rubén. >> > >> > El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi < >> > javier.ruben.marcu...@gmail.com> va escriure: >> > >> >> Buenas tardes Rubén >> >> >> >> Lo que usted desea no se puede, pero hay una solución. Primero, si >> >> selecciona el h2 lo que está dentro de esta etiqueta se selecciona. >> >> Segundo, lo que está mal es la selección, sin embargo, puede solucionar >> >> esta buscando y borrando el código <span clas…. , supuestamente este se >> >> podría repetir en todos los datos, por lo cuál el localizarlo y >> eliminarlo >> >> sería una solución. >> >> >> >> Por lo cuál al restallado de rvest tendría que procesarlo con otro >> script >> >> en R que limpie el código repetido en todos los registros. >> >> >> >> ¿Esa solución le es útil? >> >> >> >> Javier Marcuzzi >> >> >> >> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez < >> >> lagrimaescr...@gmail.com> escribió: >> >> > >> >> > Hola, buenas tardes, >> >> > >> >> > Estoy usando *rvest* para hacer webscraping y me surge una duda con >> el >> >> > siguiente codigo: >> >> > >> >> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die >> >> > Autobahnpolizei)</span>\n</h2>'* >> >> > *x %>% read_html() %>% html_nodes(xpath = "//h2")* >> >> > >> >> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando >> >> *span*. >> >> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los >> >> > típicos operadores como *!* o *:not(span)*, pero no ha resultado >> bien. >> >> > >> >> > Una orientación de como hacerlo me vendría bien, muchas gracias de >> >> antemano. >> >> > >> >> > -- >> >> > Rubén. >> >> > >> >> > [[alternative HTML version deleted]] >> >> > >> >> > _______________________________________________ >> >> > R-help-es mailing list >> >> > R-help-es@r-project.org >> >> > https://stat.ethz.ch/mailman/listinfo/r-help-es >> >> >> >> >> > >> >> -- >> Rubén. >> >> [[alternative HTML version deleted]] >> >> _______________________________________________ >> R-help-es mailing list >> R-help-es@r-project.org >> https://stat.ethz.ch/mailman/listinfo/r-help-es >> > > > -- > Saludos, > Carlos Ortega > www.qualityexcellence.es > -- Rubén. [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es