[
https://issues.apache.org/jira/browse/NUTCH-2165?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15002598#comment-15002598
]
Lewis John McGibbney commented on NUTCH-2165:
---------------------------------------------
+1 [~mjoyce] verified on small sample crawl
{code}lmcgibbn@LMC-032857 /usr/local/trunk_new1/runtime/local(joshua) $
./bin/nutch dump -flatdir -mimeStats -outputDir
/usr/local/trunk_new1/esdswg_crawl/dump -segment
/usr/local/trunk_new1/esdswg_crawl/segments
Dumper File Stats:
TOTAL Stats:
[
{"mimeType":"text/html","count":"2809"}
{"mimeType":"application/octet-stream","count":"267"}
]
Total count: 3076
FILTERED Stats:
[
{"mimeType":"text/html","count":"2809"}
{"mimeType":"application/octet-stream","count":"267"}
]
Total filtered count: 3076{code}
Following directory layout... please not multiple segment data files.
{code}
lmcgibbn@LMC-032857 /usr/local/trunk_new1/esdswg_crawl(joshua) $ tree
.
├── crawldb
│ ├── current
│ │ └── part-00000
│ │ ├── data
│ │ └── index
│ └── old
│ ├── part-00000
│ │ ├── data
│ │ └── index
│ └── part-00001
│ ├── data
│ └── index
├── dump
├── linkdb
│ └── current
│ └── part-00000
│ ├── data
│ └── index
├── pstats
│ └── part-r-00000
├── segments
│ ├── 20151102194433
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── 20151102194500
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── 20151102194552
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── 20151102194903
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── 20151102195503
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── 20151102201313
│ │ ├── content
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_fetch
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ ├── crawl_generate
│ │ │ └── part-00000
│ │ ├── crawl_parse
│ │ │ ├── part-00000
│ │ │ └── part-00001
│ │ ├── parse_data
│ │ │ ├── part-00000
│ │ │ │ ├── data
│ │ │ │ └── index
│ │ │ └── part-00001
│ │ │ ├── data
│ │ │ └── index
│ │ └── parse_text
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ └── 20151102225920
│ ├── content
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── crawl_fetch
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ ├── crawl_generate
│ │ └── part-00000
│ ├── crawl_parse
│ │ ├── part-00000
│ │ └── part-00001
│ ├── parse_data
│ │ ├── part-00000
│ │ │ ├── data
│ │ │ └── index
│ │ └── part-00001
│ │ ├── data
│ │ └── index
│ └── parse_text
│ ├── part-00000
│ │ ├── data
│ │ └── index
│ └── part-00001
│ ├── data
│ └── index
└── webgraphdb
├── inlinks
│ └── part-00000
│ ├── data
│ └── index
├── nodes
│ └── part-00000
│ ├── data
│ └── index
└── outlinks
├── current
│ └── part-00000
│ ├── data
│ └── index
├── current-990169148
│ └── _temporary
│ └── 0
└── old
129 directories, 148 files
{code}
> FileDumper Util hard codes part-# folder name
> ---------------------------------------------
>
> Key: NUTCH-2165
> URL: https://issues.apache.org/jira/browse/NUTCH-2165
> Project: Nutch
> Issue Type: Bug
> Components: tool
> Affects Versions: 2.3, 1.10
> Reporter: Michael Joyce
> Assignee: Michael Joyce
> Fix For: 2.4, 1.11
>
> Attachments: NUTCH-2165_joyce_11Nov2015.patch
>
>
> Hi folks, [~lewismc] and I were just discussing this off list. It seems that
> the part-##### folders seem to be hard coded to part-00000 in the [FileDumper
> utility|https://github.com/apache/nutch/blob/trunk/src/java/org/apache/nutch/tools/FileDumper.java#L166-L167]
> which could prove problematic.
--
This message was sent by Atlassian JIRA
(v6.3.4#6332)