Hola, ¿Qué tal? No sé si ya está resuelto el problema...
Una alternativa puede ser esta. #----------------- > # Cargar la librería rvest > library(rvest) > > # Definir el HTML de ejemplo > x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die Autobahnpolizei)</span></h2>' > > # Parsear el HTML > html_content <- read_html(x) > > # Extraer solo el nodo de texto dentro de <h2> que no esté en <span> > result <- html_content %>% + html_node(xpath = "//h2/text()") %>% + html_text(trim = TRUE) > > # Mostrar el resultado > print(result) [1] "Alerta Cobra" #----------------- Gracias, Carlos Ortega www.qualityexcellence.es El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (< lagrimaescr...@gmail.com>) escribió: > Buenos días. > > Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea > feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me > di cuenta que el texto que está dentro del *span* está siempre dentro de > unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay > dentro de los susodichos paréntesis y listo. > > A veces es más sencillo de lo que parece. :D > > muchas gracias por todo. un saludo > > El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (< > javier.ruben.marcu...@gmail.com>) escribió: > > > Estimado Rubén > > > > No importa, el código es algo más largo pero no tanto, sería algo como : > > > > Si existe lo siguiente > > Borrar esto > > So no existe > > No borrar nada > > > > Para mi gusto no iría por expresiones regulares, por si las dudas en > algún > > caso borro de más, hay que saber dominarlas, pero también son una > > alternativa. > > > > Aunque si yo quiero, para el webscraping, puedo crear código para > > enloquecer a cualquier análisis, por lo cuál, es posible que lo que usted > > analiza tenga algo para “complicarle la vida”. > > > > Javier Marcuzzi > > > > El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez < > > lagrimaescr...@gmail.com> escribió: > > > > Buenas noches Javier, > > > > Gracias por la respuesta, yo también lo había pensado. Creo que no me > vale > > porque el span dentro del h2 no se repite en todos los casos. > > > > Rubén. > > > > El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi < > > javier.ruben.marcu...@gmail.com> va escriure: > > > >> Buenas tardes Rubén > >> > >> Lo que usted desea no se puede, pero hay una solución. Primero, si > >> selecciona el h2 lo que está dentro de esta etiqueta se selecciona. > >> Segundo, lo que está mal es la selección, sin embargo, puede solucionar > >> esta buscando y borrando el código <span clas…. , supuestamente este se > >> podría repetir en todos los datos, por lo cuál el localizarlo y > eliminarlo > >> sería una solución. > >> > >> Por lo cuál al restallado de rvest tendría que procesarlo con otro > script > >> en R que limpie el código repetido en todos los registros. > >> > >> ¿Esa solución le es útil? > >> > >> Javier Marcuzzi > >> > >> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez < > >> lagrimaescr...@gmail.com> escribió: > >> > > >> > Hola, buenas tardes, > >> > > >> > Estoy usando *rvest* para hacer webscraping y me surge una duda con > el > >> > siguiente codigo: > >> > > >> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die > >> > Autobahnpolizei)</span>\n</h2>'* > >> > *x %>% read_html() %>% html_nodes(xpath = "//h2")* > >> > > >> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando > >> *span*. > >> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los > >> > típicos operadores como *!* o *:not(span)*, pero no ha resultado bien. > >> > > >> > Una orientación de como hacerlo me vendría bien, muchas gracias de > >> antemano. > >> > > >> > -- > >> > Rubén. > >> > > >> > [[alternative HTML version deleted]] > >> > > >> > _______________________________________________ > >> > R-help-es mailing list > >> > R-help-es@r-project.org > >> > https://stat.ethz.ch/mailman/listinfo/r-help-es > >> > >> > > > > -- > Rubén. > > [[alternative HTML version deleted]] > > _______________________________________________ > R-help-es mailing list > R-help-es@r-project.org > https://stat.ethz.ch/mailman/listinfo/r-help-es > -- Saludos, Carlos Ortega www.qualityexcellence.es [[alternative HTML version deleted]] _______________________________________________ R-help-es mailing list R-help-es@r-project.org https://stat.ethz.ch/mailman/listinfo/r-help-es