Hi.
I have checked the separation with tab in contenttype-mapping.txt but is ok.
This is my console out with index checker tool


bin/nutch indexchecker http://comunidades.uci.cu/
fetching: http://comunidades.uci.cu/
parsing: http://comunidades.uci.cu/
contentType: application/xhtml+xml
host :  comunidades.uci.cu
custom-h1 :     Comunidades UCI
tstamp :        Tue Nov 27 16:10:47 CST 2012
custom-strong : GESPRO
custom-strong : Personalice su página según sus necesidades y preferencias
date :  Tue Nov 27 16:10:47 CST 2012
type :  application/xhtml+xml
type :  application
type :  xhtml+xml
lang :  gl
url :   http://comunidades.uci.cu/
content :       Comunidades UCI Sign in Register Home Projects Help Search : 
Comunidades UCI DevGirls BlackHat coden
title : Comunidades UCI
inlinks :       #Ayuda
inlinks :       #Cómoen-Comunidades-UCI
inlinks :       #Documéntese
inlinks :       /
inlinks :       /account/register
inlinks :       /gespro_help
inlinks :       /links
inlinks :       /login
inlinks :       /news
inlinks :       /news/76
inlinks :       /news/77
inlinks :       /news/78
inlinks :       /news/79
inlinks :       /news/80
inlinks :       /projects
inlinks :       /projects/coj
inlinks :       /projects/comunidad
inlinks :       /projects/kgetmms
inlinks :       /projects/konoha
inlinks :       /projects/lua
inlinks :       /projects/lxkblayoutsetter
inlinks :       /projects/lycan-ide
inlinks :       /projects/progcomp
inlinks :       /projects/sigest
inlinks :       /projects/xfce4-globalmenu
inlinks :       /search
inlinks :       /tab/system_show
inlinks :       /users/132
inlinks :       /users/440
inlinks :       /users/629
inlinks :       /users/976
inlinks :       http://comunidades.uci.cu
inlinks :       http://comunidades.uci.cu/gespro-help/
inlinks :       http://comunidades.uci.cu/git/lxkblayoutsetter.git
inlinks :       http://comunidades.uci.cu/projects
inlinks :       http://comunidades.uci.cu/projects/cised
inlinks :       http://comunidades.uci.cu/projects/erlang
inlinks :       http://comunidades.uci.cu/projects/java
inlinks :       http://comunidades.uci.cu/projects/porycomgobelectronic
inlinks :       http://comunidades.uci.cu/projects/progcomp
inlinks :       http://comunidades.uci.cu/projects/proycaxtor
inlinks :       http://comunidades.uci.cu/projects/proycombd
inlinks :       http://comunidades.uci.cu/projects/proycombpmsoa
inlinks :       http://comunidades.uci.cu/projects/proycomcedin
inlinks :       http://comunidades.uci.cu/projects/proycomcolaborativo
inlinks :       http://comunidades.uci.cu/projects/proycommultimedia
inlinks :       http://comunidades.uci.cu/projects/proycomprogramacion
inlinks :       http://comunidades.uci.cu/projects/proycomsoftlibre
inlinks :       http://comunidades.uci.cu/projects/proyphp
inlinks :       http://comunidades.uci.cu/projects/ucicom
inlinks :       http://comunidades.uci.cu/projects/ucicom/documents
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Acerca_de_Comunidades_UCI
inlinks :       http://comunidades.uci.cu/projects/ucicom/wiki/Autenticación
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/C%C3%B3digo_de_%C3%A9tica
inlinks :       http://comunidades.uci.cu/projects/ucicom/wiki/Contacto
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Cr%C3%A9ditos_y_bonificaciones
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Gu%C3%ADa_de_proyectos_exitosos
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Lineamientos_m%C3%ADnimos_de_calidad
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Manual_del_usuario
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Preguntas_Frecuentes
inlinks :       http://comunidades.uci.cu/projects/ucicom/wiki/Registro
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Reporte_incidencias
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Revisi%C3%B3n_de_componentes
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nueva_comunidad
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Solicitar_nuevo_proyecto
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/T%C3%A9rminos_y_Condiciones
inlinks :       
http://comunidades.uci.cu/projects/ucicom/wiki/Unirse_a_un_proyecto
outlinks :      http://blogs.prod.uci.cu/BlackHat
outlinks :      http://blogs.prod.uci.cu/DevGirls
outlinks :      http://blogs.prod.uci.cu/codeninja
outlinks :      http://blogs.prod.uci.cu/desarrolloSOA/
outlinks :      http://blogs.prod.uci.cu/echo
outlinks :      http://blogs.prod.uci.cu/gestionproyecto/
outlinks :      http://blogs.prod.uci.cu/humanOS
outlinks :      http://blogs.prod.uci.cu/micro
outlinks :      http://blogs.prod.uci.cu/nova/
outlinks :      http://coj.uci.cu/general/about.xhtml
outlinks :      http://pgs.soporte.uci.cu
outlinks :      http://portal.albet.prod.uci.cu
outlinks :      http://portal.calisoft.prod.uci.cu
outlinks :      http://portal.cdae.prod.uci.cu
outlinks :      http://portal.cedin.prod.uci.cu
outlinks :      http://portal.cegel.prod.uci.cu
outlinks :      http://portal.ceige.prod.uci.cu
outlinks :      http://portal.cenia.prod.uci.cu
outlinks :      http://portal.cesim.prod.uci.cu
outlinks :      http://portal.cice.prod.uci.cu
outlinks :      http://portal.cidi.prod.uci.cu
outlinks :      http://portal.cised.prod.uci.cu
outlinks :      http://portal.datec.prod.uci.cu
outlinks :      http://portal.dgp.prod.uci.cu
outlinks :      http://portal.dt.prod.uci.cu
outlinks :      http://portal.fortes.prod.uci.cu
outlinks :      http://portal.frcav.cav.uci.cu
outlinks :      http://portal.frgrm.grm.uci.cu
outlinks :      http://portal.frhab.hab.uci.cu
outlinks :      http://portal.geitel.prod.uci.cu
outlinks :      http://portal.geysed.prod.uci.cu
outlinks :      http://portal.hlg.uci.cu
outlinks :      http://portal.isec.prod.uci.cu
outlinks :      http://portal.tlm.prod.uci.cu
outlinks :      http://portal.vcl.uci.cu/
outlinks :      http://postgresql.uci.cu
outlinks :      http://www.redmine.org/
outlinks :      http://www.redmine.org/guide
contentLength : 5280

and this is the page code that i check with firefox.

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" 
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd";>
<html xmlns="http://www.w3.org/1999/xhtml"; xml:lang="en">
<head>
<meta http-equiv="content-type" content="text/html; charset=utf-8" />
<title>Comunidades UCI</title>
....continue



I need to replace index-more.jar plugin ?




----- Mensaje original -----
De: "Markus Jelsma" <[email protected]>
Para: [email protected]
Enviados: Martes, 27 de Noviembre 2012 15:33:20
Asunto: RE: problem with text/html content type of documents appears 
application/xhtml+xml in solr index

Hi - are you sure you have tabs separating the target and the mapped mimes? Use 
the nutch indexchecker tool to quickly test if it works.

-----Original message-----
> From:Eyeris Rodriguez Rueda <[email protected]>
> Sent: Tue 27-Nov-2012 21:18
> To: [email protected]
> Subject: RE: problem with text/html content type of documents appears 
> application/xhtml+xml in solr index
>
> Hi. Markus.
> I was doing your recommendations but, my problem persist, some documents 
> still with application/xhtml+xml instead of text/html.
> I add the property to nutch-site.xml and make the 
> conf/contenttype-mapping.txt file
> <property>
>     <name>moreIndexingFilter.mapMimeTypes</name>
>     <value>true</value>
>   </property>
>
> I'm using nutch 1.5.1. Tell me if I need to replace index-more.jar in plugin 
> directory with any fixed version ?

10mo. ANIVERSARIO DE LA CREACION DE LA UNIVERSIDAD DE LAS CIENCIAS 
INFORMATICAS...
CONECTADOS AL FUTURO, CONECTADOS A LA REVOLUCION

http://www.uci.cu
http://www.facebook.com/universidad.uci
http://www.flickr.com/photos/universidad_uci

Reply via email to