You indeed need to replace the jar if you come from an older version and if it 
hasn't been updated. 
 
-----Original message-----
> From:Eyeris Rodriguez Rueda <[email protected]>
> Sent: Tue 27-Nov-2012 22:23
> To: [email protected]
> Subject: Re: problem with text/html content type of documents appears 
> application/xhtml+xml in solr index
> 
> Hi.
> I have checked the separation with tab in contenttype-mapping.txt but is ok.
> This is my console out with index checker tool
> 
> 
> bin/nutch indexchecker http://comunidades.uci.cu/
> fetching: http://comunidades.uci.cu/
> parsing: http://comunidades.uci.cu/
> contentType: application/xhtml+xml
> host :        comunidades.uci.cu
> custom-h1 :   Comunidades UCI
> tstamp :      Tue Nov 27 16:10:47 CST 2012
> custom-strong :       GESPRO
> custom-strong :       Personalice su página según sus necesidades y 
> preferencias
> date :        Tue Nov 27 16:10:47 CST 2012
> type :        application/xhtml+xml
> type :        application
> type :        xhtml+xml
> lang :        gl
> url : http://comunidades.uci.cu/
> content :     Comunidades UCI Sign in Register Home Projects Help Search : 
> Comunidades UCI DevGirls BlackHat coden
> title :       Comunidades UCI
> inlinks :     #Ayuda
> inlinks :     #Cómoen-Comunidades-UCI
> inlinks :     #Documéntese
> inlinks :     /
> inlinks :     /account/register
> inlinks :     /gespro_help
> inlinks :     /links
> inlinks :     /login
> inlinks :     /news
> inlinks :     /news/76
> inlinks :     /news/77
> inlinks :     /news/78
> inlinks :     /news/79
> inlinks :     /news/80
> inlinks :     /projects
> inlinks :     /projects/coj
> inlinks :     /projects/comunidad
> inlinks :     /projects/kgetmms
> inlinks :     /projects/konoha
> inlinks :     /projects/lua
> inlinks :     /projects/lxkblayoutsetter
> inlinks :     /projects/lycan-ide
> inlinks :     /projects/progcomp
> inlinks :     /projects/sigest
> inlinks :     /projects/xfce4-globalmenu
> inlinks :     /search
> inlinks :     /tab/system_show
> inlinks :     /users/132
> inlinks :     /users/440
> inlinks :     /users/629
> inlinks :     /users/976
> inlinks :     http://comunidades.uci.cu
> inlinks :     http://comunidades.uci.cu/gespro-help/
> inlinks :     http://comunidades.uci.cu/git/lxkblayoutsetter.git
> inlinks :     http://comunidades.uci.cu/projects
> inlinks :     http://comunidades.uci.cu/projects/cised
> inlinks :     http://comunidades.uci.cu/projects/erlang
> inlinks :     http://comunidades.uci.cu/projects/java
> inlinks :     http://comunidades.uci.cu/projects/porycomgobelectronic
> inlinks :     http://comunidades.uci.cu/projects/progcomp
> inlinks :     http://comunidades.uci.cu/projects/proycaxtor
> inlinks :     http://comunidades.uci.cu/projects/proycombd
> inlinks :     http://comunidades.uci.cu/projects/proycombpmsoa
> inlinks :     http://comunidades.uci.cu/projects/proycomcedin
> inlinks :     http://comunidades.uci.cu/projects/proycomcolaborativo
> inlinks :     http://comunidades.uci.cu/projects/proycommultimedia
> inlinks :     http://comunidades.uci.cu/projects/proycomprogramacion
> inlinks :     http://comunidades.uci.cu/projects/proycomsoftlibre
> inlinks :     http://comunidades.uci.cu/projects/proyphp
> inlinks :     http://comunidades.uci.cu/projects/ucicom
> inlinks :     http://comunidades.uci.cu/projects/ucicom/documents
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Acerca_de_Comunidades_UCI
> inlinks :     http://comunidades.uci.cu/projects/ucicom/wiki/Autenticación
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/C%C3%B3digo_de_%C3%A9tica
> inlinks :     http://comunidades.uci.cu/projects/ucicom/wiki/Contacto
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Cr%C3%A9ditos_y_bonificaciones
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Gu%C3%ADa_de_proyectos_exitosos
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Lineamientos_m%C3%ADnimos_de_calidad
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Manual_del_usuario
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Preguntas_Frecuentes
> inlinks :     http://comunidades.uci.cu/projects/ucicom/wiki/Registro
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Reporte_incidencias
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Revisi%C3%B3n_de_componentes
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nueva_comunidad
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nuevo_proyecto
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/T%C3%A9rminos_y_Condiciones
> inlinks :     
> http://comunidades.uci.cu/projects/ucicom/wiki/Unirse_a_un_proyecto
> outlinks :    http://blogs.prod.uci.cu/BlackHat
> outlinks :    http://blogs.prod.uci.cu/DevGirls
> outlinks :    http://blogs.prod.uci.cu/codeninja
> outlinks :    http://blogs.prod.uci.cu/desarrolloSOA/
> outlinks :    http://blogs.prod.uci.cu/echo
> outlinks :    http://blogs.prod.uci.cu/gestionproyecto/
> outlinks :    http://blogs.prod.uci.cu/humanOS
> outlinks :    http://blogs.prod.uci.cu/micro
> outlinks :    http://blogs.prod.uci.cu/nova/
> outlinks :    http://coj.uci.cu/general/about.xhtml
> outlinks :    http://pgs.soporte.uci.cu
> outlinks :    http://portal.albet.prod.uci.cu
> outlinks :    http://portal.calisoft.prod.uci.cu
> outlinks :    http://portal.cdae.prod.uci.cu
> outlinks :    http://portal.cedin.prod.uci.cu
> outlinks :    http://portal.cegel.prod.uci.cu
> outlinks :    http://portal.ceige.prod.uci.cu
> outlinks :    http://portal.cenia.prod.uci.cu
> outlinks :    http://portal.cesim.prod.uci.cu
> outlinks :    http://portal.cice.prod.uci.cu
> outlinks :    http://portal.cidi.prod.uci.cu
> outlinks :    http://portal.cised.prod.uci.cu
> outlinks :    http://portal.datec.prod.uci.cu
> outlinks :    http://portal.dgp.prod.uci.cu
> outlinks :    http://portal.dt.prod.uci.cu
> outlinks :    http://portal.fortes.prod.uci.cu
> outlinks :    http://portal.frcav.cav.uci.cu
> outlinks :    http://portal.frgrm.grm.uci.cu
> outlinks :    http://portal.frhab.hab.uci.cu
> outlinks :    http://portal.geitel.prod.uci.cu
> outlinks :    http://portal.geysed.prod.uci.cu
> outlinks :    http://portal.hlg.uci.cu
> outlinks :    http://portal.isec.prod.uci.cu
> outlinks :    http://portal.tlm.prod.uci.cu
> outlinks :    http://portal.vcl.uci.cu/
> outlinks :    http://postgresql.uci.cu
> outlinks :    http://www.redmine.org/
> outlinks :    http://www.redmine.org/guide
> contentLength :       5280
> 
> and this is the page code that i check with firefox.
> 
> <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
> "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd";>
> <html xmlns="http://www.w3.org/1999/xhtml"; xml:lang="en">
> <head>
> <meta http-equiv="content-type" content="text/html; charset=utf-8" />
> <title>Comunidades UCI</title>
> ....continue
> 
> 
> 
> I need to replace index-more.jar plugin ?
> 
> 
> 
> 
> ----- Mensaje original -----
> De: "Markus Jelsma" <[email protected]>
> Para: [email protected]
> Enviados: Martes, 27 de Noviembre 2012 15:33:20
> Asunto: RE: problem with text/html content type of documents appears 
> application/xhtml+xml in solr index
> 
> Hi - are you sure you have tabs separating the target and the mapped mimes? 
> Use the nutch indexchecker tool to quickly test if it works. 
>  
> -----Original message-----
> > From:Eyeris Rodriguez Rueda <[email protected]>
> > Sent: Tue 27-Nov-2012 21:18
> > To: [email protected]
> > Subject: RE: problem with text/html content type of documents appears 
> > application/xhtml+xml in solr index
> > 
> > Hi. Markus.
> > I was doing your recommendations but, my problem persist, some documents 
> > still with application/xhtml+xml instead of text/html.
> > I add the property to nutch-site.xml and make the 
> > conf/contenttype-mapping.txt file
> > <property>
> >     <name>moreIndexingFilter.mapMimeTypes</name>
> >     <value>true</value>
> >   </property>
> > 
> > I'm using nutch 1.5.1. Tell me if I need to replace index-more.jar in 
> > plugin directory with any fixed version ?
> 
> 10mo. ANIVERSARIO DE LA CREACION DE LA UNIVERSIDAD DE LAS CIENCIAS 
> INFORMATICAS...
> CONECTADOS AL FUTURO, CONECTADOS A LA REVOLUCION
> 
> http://www.uci.cu
> http://www.facebook.com/universidad.uci
> http://www.flickr.com/photos/universidad_uci
> 

Reply via email to