Obtener contenido de páginas

estebanjavier Wed, 08 Dec 2010 10:23:35 -0800

Hola a todos.

He crawleado muchísimas páginas usando Java Nutch 0.9, bajo el entorno de
CGYWin bajo Windows.


Me interesa obtener el contenido html de cada una de las páginas. (No me
interesa ver por pantalla las páginas).

Por cada página tengo que crear un Document con Lucene. Un Document vá a
tener varios campos y uno de ellos es el contenido de la página.

La forma de obtener el contenido (según lo que encontré en Google) es así:

import org.apache.nutch.searcher.Hit;
import org.apache.nutch.searcher.HitDetails;
import org.apache.nutch.searcher.Hits;
import org.apache.nutch.searcher.NutchBean;
import org.apache.nutch.searcher.Query;
import org.apache.nutch.util.NutchConfiguration;
import org.apache.hadoop.conf.Configuration;
import org.apache.nutch.parse.ParseText;
import org.apache.hadoop.fs.Path;

public class Main {

        Configuration conf = NutchConfiguration.create();


        NutchBean nb = new NutchBean(conf);

          Hits hits = nb.search(Query.parse("i*", conf), 10);

        if( null != hits)
        {
            Hit hit = hits.getHit(5);
            HitDetails hitDetails = nb.getDetails(hit);
            ParseText pText = nb.getParseText(hitDetails);

            System.out.println(pText.getText());
        }

Sin embargo, resulta esta traza de error:

10/12/08 13:21:08 INFO searcher.NutchBean: opening indexes in crawl/indexes
10/12/08 13:21:08 WARN plugin.PluginRepository: Plugins: directory not
found: plugins
10/12/08 13:21:08 INFO plugin.PluginRepository: Plugin Auto-activation mode:
[true]
10/12/08 13:21:08 INFO plugin.PluginRepository: Registered Plugins:
10/12/08 13:21:08 INFO plugin.PluginRepository:         NONE
10/12/08 13:21:08 INFO plugin.PluginRepository: Registered Extension-Points:
10/12/08 13:21:08 INFO plugin.PluginRepository:         NONE
java.lang.RuntimeException: org.apache.nutch.searcher.QueryFilter not found.
        at org.apache.nutch.searcher.QueryFilters.(QueryFilters.java:60)
        at
org.apache.nutch.searcher.IndexSearcher.init(IndexSearcher.java:79)
        at org.apache.nutch.searcher.IndexSearcher.(IndexSearcher.java:63)
        at org.apache.nutch.searcher.NutchBean.init(NutchBean.java:140)
        at org.apache.nutch.searcher.NutchBean.(NutchBean.java:106)
        at org.apache.nutch.searcher.NutchBean.(NutchBean.java:84)
        at parsenutchcontent.Main.main(Main.java:29)

Alguien tiene idea cómo puedo solucionar este error?

Aclaro que no me interesa ver las páginas con la interface gráfica de Nutch.
Y que necesito crear una colección de Document, que será la entrada para un
algoritmo de clasificación de páginas. Este algoritmo será el de Bayes de la
api MALLETS.

Muchas gracias a todos

Saludos

         
-- 
View this message in context: 
http://lucene.472066.n3.nabble.com/Obtener-contenido-de-paginas-tp2052445p2052445.html
Sent from the Nutch - Dev mailing list archive at Nabble.com.

Obtener contenido de páginas

Reply via email to