Hi. I have checked the separation with tab in contenttype-mapping.txt but is ok. This is my console out with index checker tool
bin/nutch indexchecker http://comunidades.uci.cu/ fetching: http://comunidades.uci.cu/ parsing: http://comunidades.uci.cu/ contentType: application/xhtml+xml host : comunidades.uci.cu custom-h1 : Comunidades UCI tstamp : Tue Nov 27 16:10:47 CST 2012 custom-strong : GESPRO custom-strong : Personalice su página según sus necesidades y preferencias date : Tue Nov 27 16:10:47 CST 2012 type : application/xhtml+xml type : application type : xhtml+xml lang : gl url : http://comunidades.uci.cu/ content : Comunidades UCI Sign in Register Home Projects Help Search : Comunidades UCI DevGirls BlackHat coden title : Comunidades UCI inlinks : #Ayuda inlinks : #Cómoen-Comunidades-UCI inlinks : #Documéntese inlinks : / inlinks : /account/register inlinks : /gespro_help inlinks : /links inlinks : /login inlinks : /news inlinks : /news/76 inlinks : /news/77 inlinks : /news/78 inlinks : /news/79 inlinks : /news/80 inlinks : /projects inlinks : /projects/coj inlinks : /projects/comunidad inlinks : /projects/kgetmms inlinks : /projects/konoha inlinks : /projects/lua inlinks : /projects/lxkblayoutsetter inlinks : /projects/lycan-ide inlinks : /projects/progcomp inlinks : /projects/sigest inlinks : /projects/xfce4-globalmenu inlinks : /search inlinks : /tab/system_show inlinks : /users/132 inlinks : /users/440 inlinks : /users/629 inlinks : /users/976 inlinks : http://comunidades.uci.cu inlinks : http://comunidades.uci.cu/gespro-help/ inlinks : http://comunidades.uci.cu/git/lxkblayoutsetter.git inlinks : http://comunidades.uci.cu/projects inlinks : http://comunidades.uci.cu/projects/cised inlinks : http://comunidades.uci.cu/projects/erlang inlinks : http://comunidades.uci.cu/projects/java inlinks : http://comunidades.uci.cu/projects/porycomgobelectronic inlinks : http://comunidades.uci.cu/projects/progcomp inlinks : http://comunidades.uci.cu/projects/proycaxtor inlinks : http://comunidades.uci.cu/projects/proycombd inlinks : http://comunidades.uci.cu/projects/proycombpmsoa inlinks : http://comunidades.uci.cu/projects/proycomcedin inlinks : http://comunidades.uci.cu/projects/proycomcolaborativo inlinks : http://comunidades.uci.cu/projects/proycommultimedia inlinks : http://comunidades.uci.cu/projects/proycomprogramacion inlinks : http://comunidades.uci.cu/projects/proycomsoftlibre inlinks : http://comunidades.uci.cu/projects/proyphp inlinks : http://comunidades.uci.cu/projects/ucicom inlinks : http://comunidades.uci.cu/projects/ucicom/documents inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Acerca_de_Comunidades_UCI inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Autenticación inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/C%C3%B3digo_de_%C3%A9tica inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Contacto inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Cr%C3%A9ditos_y_bonificaciones inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Gu%C3%ADa_de_proyectos_exitosos inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Lineamientos_m%C3%ADnimos_de_calidad inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Manual_del_usuario inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Preguntas_Frecuentes inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Registro inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Reporte_incidencias inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Revisi%C3%B3n_de_componentes inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nueva_comunidad inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nuevo_proyecto inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/T%C3%A9rminos_y_Condiciones inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Unirse_a_un_proyecto outlinks : http://blogs.prod.uci.cu/BlackHat outlinks : http://blogs.prod.uci.cu/DevGirls outlinks : http://blogs.prod.uci.cu/codeninja outlinks : http://blogs.prod.uci.cu/desarrolloSOA/ outlinks : http://blogs.prod.uci.cu/echo outlinks : http://blogs.prod.uci.cu/gestionproyecto/ outlinks : http://blogs.prod.uci.cu/humanOS outlinks : http://blogs.prod.uci.cu/micro outlinks : http://blogs.prod.uci.cu/nova/ outlinks : http://coj.uci.cu/general/about.xhtml outlinks : http://pgs.soporte.uci.cu outlinks : http://portal.albet.prod.uci.cu outlinks : http://portal.calisoft.prod.uci.cu outlinks : http://portal.cdae.prod.uci.cu outlinks : http://portal.cedin.prod.uci.cu outlinks : http://portal.cegel.prod.uci.cu outlinks : http://portal.ceige.prod.uci.cu outlinks : http://portal.cenia.prod.uci.cu outlinks : http://portal.cesim.prod.uci.cu outlinks : http://portal.cice.prod.uci.cu outlinks : http://portal.cidi.prod.uci.cu outlinks : http://portal.cised.prod.uci.cu outlinks : http://portal.datec.prod.uci.cu outlinks : http://portal.dgp.prod.uci.cu outlinks : http://portal.dt.prod.uci.cu outlinks : http://portal.fortes.prod.uci.cu outlinks : http://portal.frcav.cav.uci.cu outlinks : http://portal.frgrm.grm.uci.cu outlinks : http://portal.frhab.hab.uci.cu outlinks : http://portal.geitel.prod.uci.cu outlinks : http://portal.geysed.prod.uci.cu outlinks : http://portal.hlg.uci.cu outlinks : http://portal.isec.prod.uci.cu outlinks : http://portal.tlm.prod.uci.cu outlinks : http://portal.vcl.uci.cu/ outlinks : http://postgresql.uci.cu outlinks : http://www.redmine.org/ outlinks : http://www.redmine.org/guide contentLength : 5280 and this is the page code that i check with firefox. <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en"> <head> <meta http-equiv="content-type" content="text/html; charset=utf-8" /> <title>Comunidades UCI</title> ....continue I need to replace index-more.jar plugin ? ----- Mensaje original ----- De: "Markus Jelsma" <[email protected]> Para: [email protected] Enviados: Martes, 27 de Noviembre 2012 15:33:20 Asunto: RE: problem with text/html content type of documents appears application/xhtml+xml in solr index Hi - are you sure you have tabs separating the target and the mapped mimes? Use the nutch indexchecker tool to quickly test if it works. -----Original message----- > From:Eyeris Rodriguez Rueda <[email protected]> > Sent: Tue 27-Nov-2012 21:18 > To: [email protected] > Subject: RE: problem with text/html content type of documents appears > application/xhtml+xml in solr index > > Hi. Markus. > I was doing your recommendations but, my problem persist, some documents > still with application/xhtml+xml instead of text/html. > I add the property to nutch-site.xml and make the > conf/contenttype-mapping.txt file > <property> > <name>moreIndexingFilter.mapMimeTypes</name> > <value>true</value> > </property> > > I'm using nutch 1.5.1. Tell me if I need to replace index-more.jar in plugin > directory with any fixed version ? 10mo. ANIVERSARIO DE LA CREACION DE LA UNIVERSIDAD DE LAS CIENCIAS INFORMATICAS... CONECTADOS AL FUTURO, CONECTADOS A LA REVOLUCION http://www.uci.cu http://www.facebook.com/universidad.uci http://www.flickr.com/photos/universidad_uci

