[ 
https://issues.apache.org/jira/browse/NUTCH-2165?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=15002598#comment-15002598
 ] 

Lewis John McGibbney commented on NUTCH-2165:
---------------------------------------------

+1 [~mjoyce] verified on small sample crawl
{code}lmcgibbn@LMC-032857 /usr/local/trunk_new1/runtime/local(joshua) $ 
./bin/nutch dump -flatdir -mimeStats -outputDir 
/usr/local/trunk_new1/esdswg_crawl/dump -segment 
/usr/local/trunk_new1/esdswg_crawl/segments
Dumper File Stats:
TOTAL Stats:
[
    {"mimeType":"text/html","count":"2809"}
    {"mimeType":"application/octet-stream","count":"267"}
]
Total count: 3076

FILTERED Stats:
[
    {"mimeType":"text/html","count":"2809"}
    {"mimeType":"application/octet-stream","count":"267"}
]
Total filtered count: 3076{code}

Following directory layout... please not multiple segment data files.

{code}
lmcgibbn@LMC-032857 /usr/local/trunk_new1/esdswg_crawl(joshua) $ tree
.
├── crawldb
│   ├── current
│   │   └── part-00000
│   │       ├── data
│   │       └── index
│   └── old
│       ├── part-00000
│       │   ├── data
│       │   └── index
│       └── part-00001
│           ├── data
│           └── index
├── dump
├── linkdb
│   └── current
│       └── part-00000
│           ├── data
│           └── index
├── pstats
│   └── part-r-00000
├── segments
│   ├── 20151102194433
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   ├── 20151102194500
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   ├── 20151102194552
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   ├── 20151102194903
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   ├── 20151102195503
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   ├── 20151102201313
│   │   ├── content
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_fetch
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   ├── crawl_generate
│   │   │   └── part-00000
│   │   ├── crawl_parse
│   │   │   ├── part-00000
│   │   │   └── part-00001
│   │   ├── parse_data
│   │   │   ├── part-00000
│   │   │   │   ├── data
│   │   │   │   └── index
│   │   │   └── part-00001
│   │   │       ├── data
│   │   │       └── index
│   │   └── parse_text
│   │       ├── part-00000
│   │       │   ├── data
│   │       │   └── index
│   │       └── part-00001
│   │           ├── data
│   │           └── index
│   └── 20151102225920
│       ├── content
│       │   ├── part-00000
│       │   │   ├── data
│       │   │   └── index
│       │   └── part-00001
│       │       ├── data
│       │       └── index
│       ├── crawl_fetch
│       │   ├── part-00000
│       │   │   ├── data
│       │   │   └── index
│       │   └── part-00001
│       │       ├── data
│       │       └── index
│       ├── crawl_generate
│       │   └── part-00000
│       ├── crawl_parse
│       │   ├── part-00000
│       │   └── part-00001
│       ├── parse_data
│       │   ├── part-00000
│       │   │   ├── data
│       │   │   └── index
│       │   └── part-00001
│       │       ├── data
│       │       └── index
│       └── parse_text
│           ├── part-00000
│           │   ├── data
│           │   └── index
│           └── part-00001
│               ├── data
│               └── index
└── webgraphdb
    ├── inlinks
    │   └── part-00000
    │       ├── data
    │       └── index
    ├── nodes
    │   └── part-00000
    │       ├── data
    │       └── index
    └── outlinks
        ├── current
        │   └── part-00000
        │       ├── data
        │       └── index
        ├── current-990169148
        │   └── _temporary
        │       └── 0
        └── old

129 directories, 148 files
{code}

> FileDumper Util hard codes part-# folder name
> ---------------------------------------------
>
>                 Key: NUTCH-2165
>                 URL: https://issues.apache.org/jira/browse/NUTCH-2165
>             Project: Nutch
>          Issue Type: Bug
>          Components: tool
>    Affects Versions: 2.3, 1.10
>            Reporter: Michael Joyce
>            Assignee: Michael Joyce
>             Fix For: 2.4, 1.11
>
>         Attachments: NUTCH-2165_joyce_11Nov2015.patch
>
>
> Hi folks, [~lewismc] and I were just discussing this off list. It seems that 
> the part-##### folders seem to be hard coded to part-00000 in the [FileDumper 
> utility|https://github.com/apache/nutch/blob/trunk/src/java/org/apache/nutch/tools/FileDumper.java#L166-L167]
>  which could prove problematic.



--
This message was sent by Atlassian JIRA
(v6.3.4#6332)

Reply via email to