Re: Nutch 2.1: extension point ParseFilter: doc is null

Martin Aesch Fri, 24 May 2013 03:01:36 -0700

Dear Lewis,

Thanks for the hints. Yes I am using currently neko parser and did some
debugging. Seems, that issue is still open for nutch-2.1:
https://issues.apache.org/jira/browse/NUTCH-1253
(See stacktrace further below)
I had however no success to change to neko 1.9.6.2 (since it is already
in maven repo) and did not try out yet the solution suggested in the
issue (neko 1.9.12).


With tagsoup, reltag plugin works smoothly.

Best regards,
Martin





java.util.concurrent.ExecutionException: java.lang.AbstractMethodError:
org.cyberneko.html.HTMLScanner.getCharacterOffset()I
        at java.util.concurrent.FutureTask
$Sync.innerGet(FutureTask.java:262)
        at java.util.concurrent.FutureTask.get(FutureTask.java:119)
        at
org.apache.nutch.parse.ParseUtil.runParser(ParseUtil.java:148)
        at org.apache.nutch.parse.ParseUtil.parse(ParseUtil.java:129)
        at org.apache.nutch.parse.ParseUtil.process(ParseUtil.java:176)
        at org.apache.nutch.parse.ParserJob
$ParserMapper.map(ParserJob.java:129)
        at org.apache.nutch.parse.ParserJob
$ParserMapper.map(ParserJob.java:78)
        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:144)
        at
org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
        at org.apache.hadoop.mapred.LocalJobRunner
$Job.run(LocalJobRunner.java:212)
Caused by: java.lang.AbstractMethodError:
org.cyberneko.html.HTMLScanner.getCharacterOffset()I
        at org.apache.xerces.xni.parser.XMLParseException.<init>(Unknown
Source)
        at org.cyberneko.html.HTMLConfiguration
$ErrorReporter.createException(HTMLConfiguration.java:673)
        at org.cyberneko.html.HTMLConfiguration
$ErrorReporter.reportError(HTMLConfiguration.java:662)
        at org.cyberneko.html.HTMLScanner
$ContentScanner.scanAttribute(HTMLScanner.java:2468)
        at org.cyberneko.html.HTMLScanner
$ContentScanner.scanAttribute(HTMLScanner.java:2424)
        at org.cyberneko.html.HTMLScanner
$ContentScanner.scanStartElement(HTMLScanner.java:2328)
        at org.cyberneko.html.HTMLScanner
$ContentScanner.scan(HTMLScanner.java:1881)
        at
org.cyberneko.html.HTMLScanner.scanDocument(HTMLScanner.java:809)
        at
org.cyberneko.html.HTMLConfiguration.parse(HTMLConfiguration.java:478)
        at
org.cyberneko.html.HTMLConfiguration.parse(HTMLConfiguration.java:431)
        at
org.cyberneko.html.parsers.DOMFragmentParser.parse(DOMFragmentParser.java:164)
        at
org.apache.nutch.parse.html.HtmlParser.parseNeko(HtmlParser.java:275)
        at
org.apache.nutch.parse.html.HtmlParser.parse(HtmlParser.java:238)
        at
org.apache.nutch.parse.html.HtmlParser.getParse(HtmlParser.java:173)
        at
org.apache.nutch.parse.ParseCallable.call(ParseCallable.java:36)
        at
org.apache.nutch.parse.ParseCallable.call(ParseCallable.java:23)
        at java.util.concurrent.FutureTask
$Sync.innerRun(FutureTask.java:334)
        at java.util.concurrent.FutureTask.run(FutureTask.java:166)
        at
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at java.util.concurrent.ThreadPoolExecutor
$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:722)









AbstractMethodError
On Thu, 2013-05-23 at 21:16 -0700, Lewis John Mcgibbney wrote:
> Hi Martin,
> I am struggling to understand how the DocumentFragment (populated either by
> private methods parseTagSoup or parseNeko depending on your config in
> nutch-site.xml) is null!
> What you don't mention is some problem you are having?
> I can't DEBUG the code tonight but I am interested to see what is up here.
> Lewis
> 
> On Thursday, May 23, 2013, Martin Aesch <[email protected]> wrote:
> > Dear nutchers,
> >
> > I extended the ParseFilter extension point
> >
> > public Parse filter(String url, WebPage page, Parse parse,
> >     HTMLMetaTags metaTags, DocumentFragment doc) {
> >
> > From what I understand, plugin parse-html should populate the
> > DocumentFragment doc.
> >
> > Unfortunately, doc is always null. I tried this with my own plugin, as
> > well as with the nutch-shipped plugin microformats-reltag, which extends
> > the same point.
> >
> > Both plugins are working, and they are called. I attached my debugger,
> > and both for my own plugin as well as for the reltag-plugin, doc is
> > always null.
> >
> > I checked parse-plugins.xml, yes, parse-html is called and my mime-types
> > are those which call parse-html
> > (extension-id="org.apache.nutch.parse.html.HtmlParser").
> >
> > What am I missing?
> >
> > Thanks,
> > Martin
> >
> >
>

Re: Nutch 2.1: extension point ParseFilter: doc is null

Reply via email to