You indeed need to replace the jar if you come from an older version and if it
hasn't been updated.
-----Original message-----
> From:Eyeris Rodriguez Rueda <[email protected]>
> Sent: Tue 27-Nov-2012 22:23
> To: [email protected]
> Subject: Re: problem with text/html content type of documents appears
> application/xhtml+xml in solr index
>
> Hi.
> I have checked the separation with tab in contenttype-mapping.txt but is ok.
> This is my console out with index checker tool
>
>
> bin/nutch indexchecker http://comunidades.uci.cu/
> fetching: http://comunidades.uci.cu/
> parsing: http://comunidades.uci.cu/
> contentType: application/xhtml+xml
> host : comunidades.uci.cu
> custom-h1 : Comunidades UCI
> tstamp : Tue Nov 27 16:10:47 CST 2012
> custom-strong : GESPRO
> custom-strong : Personalice su página según sus necesidades y
> preferencias
> date : Tue Nov 27 16:10:47 CST 2012
> type : application/xhtml+xml
> type : application
> type : xhtml+xml
> lang : gl
> url : http://comunidades.uci.cu/
> content : Comunidades UCI Sign in Register Home Projects Help Search :
> Comunidades UCI DevGirls BlackHat coden
> title : Comunidades UCI
> inlinks : #Ayuda
> inlinks : #Cómoen-Comunidades-UCI
> inlinks : #Documéntese
> inlinks : /
> inlinks : /account/register
> inlinks : /gespro_help
> inlinks : /links
> inlinks : /login
> inlinks : /news
> inlinks : /news/76
> inlinks : /news/77
> inlinks : /news/78
> inlinks : /news/79
> inlinks : /news/80
> inlinks : /projects
> inlinks : /projects/coj
> inlinks : /projects/comunidad
> inlinks : /projects/kgetmms
> inlinks : /projects/konoha
> inlinks : /projects/lua
> inlinks : /projects/lxkblayoutsetter
> inlinks : /projects/lycan-ide
> inlinks : /projects/progcomp
> inlinks : /projects/sigest
> inlinks : /projects/xfce4-globalmenu
> inlinks : /search
> inlinks : /tab/system_show
> inlinks : /users/132
> inlinks : /users/440
> inlinks : /users/629
> inlinks : /users/976
> inlinks : http://comunidades.uci.cu
> inlinks : http://comunidades.uci.cu/gespro-help/
> inlinks : http://comunidades.uci.cu/git/lxkblayoutsetter.git
> inlinks : http://comunidades.uci.cu/projects
> inlinks : http://comunidades.uci.cu/projects/cised
> inlinks : http://comunidades.uci.cu/projects/erlang
> inlinks : http://comunidades.uci.cu/projects/java
> inlinks : http://comunidades.uci.cu/projects/porycomgobelectronic
> inlinks : http://comunidades.uci.cu/projects/progcomp
> inlinks : http://comunidades.uci.cu/projects/proycaxtor
> inlinks : http://comunidades.uci.cu/projects/proycombd
> inlinks : http://comunidades.uci.cu/projects/proycombpmsoa
> inlinks : http://comunidades.uci.cu/projects/proycomcedin
> inlinks : http://comunidades.uci.cu/projects/proycomcolaborativo
> inlinks : http://comunidades.uci.cu/projects/proycommultimedia
> inlinks : http://comunidades.uci.cu/projects/proycomprogramacion
> inlinks : http://comunidades.uci.cu/projects/proycomsoftlibre
> inlinks : http://comunidades.uci.cu/projects/proyphp
> inlinks : http://comunidades.uci.cu/projects/ucicom
> inlinks : http://comunidades.uci.cu/projects/ucicom/documents
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Acerca_de_Comunidades_UCI
> inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Autenticación
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/C%C3%B3digo_de_%C3%A9tica
> inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Contacto
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Cr%C3%A9ditos_y_bonificaciones
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Gu%C3%ADa_de_proyectos_exitosos
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Lineamientos_m%C3%ADnimos_de_calidad
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Manual_del_usuario
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Preguntas_Frecuentes
> inlinks : http://comunidades.uci.cu/projects/ucicom/wiki/Registro
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Reporte_incidencias
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Revisi%C3%B3n_de_componentes
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nueva_comunidad
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nuevo_proyecto
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/T%C3%A9rminos_y_Condiciones
> inlinks :
> http://comunidades.uci.cu/projects/ucicom/wiki/Unirse_a_un_proyecto
> outlinks : http://blogs.prod.uci.cu/BlackHat
> outlinks : http://blogs.prod.uci.cu/DevGirls
> outlinks : http://blogs.prod.uci.cu/codeninja
> outlinks : http://blogs.prod.uci.cu/desarrolloSOA/
> outlinks : http://blogs.prod.uci.cu/echo
> outlinks : http://blogs.prod.uci.cu/gestionproyecto/
> outlinks : http://blogs.prod.uci.cu/humanOS
> outlinks : http://blogs.prod.uci.cu/micro
> outlinks : http://blogs.prod.uci.cu/nova/
> outlinks : http://coj.uci.cu/general/about.xhtml
> outlinks : http://pgs.soporte.uci.cu
> outlinks : http://portal.albet.prod.uci.cu
> outlinks : http://portal.calisoft.prod.uci.cu
> outlinks : http://portal.cdae.prod.uci.cu
> outlinks : http://portal.cedin.prod.uci.cu
> outlinks : http://portal.cegel.prod.uci.cu
> outlinks : http://portal.ceige.prod.uci.cu
> outlinks : http://portal.cenia.prod.uci.cu
> outlinks : http://portal.cesim.prod.uci.cu
> outlinks : http://portal.cice.prod.uci.cu
> outlinks : http://portal.cidi.prod.uci.cu
> outlinks : http://portal.cised.prod.uci.cu
> outlinks : http://portal.datec.prod.uci.cu
> outlinks : http://portal.dgp.prod.uci.cu
> outlinks : http://portal.dt.prod.uci.cu
> outlinks : http://portal.fortes.prod.uci.cu
> outlinks : http://portal.frcav.cav.uci.cu
> outlinks : http://portal.frgrm.grm.uci.cu
> outlinks : http://portal.frhab.hab.uci.cu
> outlinks : http://portal.geitel.prod.uci.cu
> outlinks : http://portal.geysed.prod.uci.cu
> outlinks : http://portal.hlg.uci.cu
> outlinks : http://portal.isec.prod.uci.cu
> outlinks : http://portal.tlm.prod.uci.cu
> outlinks : http://portal.vcl.uci.cu/
> outlinks : http://postgresql.uci.cu
> outlinks : http://www.redmine.org/
> outlinks : http://www.redmine.org/guide
> contentLength : 5280
>
> and this is the page code that i check with firefox.
>
> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
> "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
> <html xmlns="http://www.w3.org/1999/xhtml" xml:lang="en">
> <head>
> <meta http-equiv="content-type" content="text/html; charset=utf-8" />
> <title>Comunidades UCI</title>
> ....continue
>
>
>
> I need to replace index-more.jar plugin ?
>
>
>
>
> ----- Mensaje original -----
> De: "Markus Jelsma" <[email protected]>
> Para: [email protected]
> Enviados: Martes, 27 de Noviembre 2012 15:33:20
> Asunto: RE: problem with text/html content type of documents appears
> application/xhtml+xml in solr index
>
> Hi - are you sure you have tabs separating the target and the mapped mimes?
> Use the nutch indexchecker tool to quickly test if it works.
>
> -----Original message-----
> > From:Eyeris Rodriguez Rueda <[email protected]>
> > Sent: Tue 27-Nov-2012 21:18
> > To: [email protected]
> > Subject: RE: problem with text/html content type of documents appears
> > application/xhtml+xml in solr index
> >
> > Hi. Markus.
> > I was doing your recommendations but, my problem persist, some documents
> > still with application/xhtml+xml instead of text/html.
> > I add the property to nutch-site.xml and make the
> > conf/contenttype-mapping.txt file
> > <property>
> > <name>moreIndexingFilter.mapMimeTypes</name>
> > <value>true</value>
> > </property>
> >
> > I'm using nutch 1.5.1. Tell me if I need to replace index-more.jar in
> > plugin directory with any fixed version ?
>
> 10mo. ANIVERSARIO DE LA CREACION DE LA UNIVERSIDAD DE LAS CIENCIAS
> INFORMATICAS...
> CONECTADOS AL FUTURO, CONECTADOS A LA REVOLUCION
>
> http://www.uci.cu
> http://www.facebook.com/universidad.uci
> http://www.flickr.com/photos/universidad_uci
>