[jira] [Commented] (LUCENE-7863) Don't repeat postings (and perhaps positions) on ReverseWF, EdgeNGram, etc

Mikhail Khludnev (JIRA) Sun, 17 Sep 2017 22:38:14 -0700

    [ 
https://issues.apache.org/jira/browse/LUCENE-7863?page=com.atlassian.jira.plugin.system.issuetabpanels:comment-tabpanel&focusedCommentId=16169620#comment-16169620
 ]


Mikhail Khludnev commented on LUCENE-7863:
------------------------------------------

Merge thread fails to read terms  
{code}
     ... 
     [java]  263.21 sec --> main added     80000 docs
     [java]  264.29 sec --> main added     85000 docs
     [java]  313.78 sec --> main added     90000 docs
     [java]  315.81 sec --> main added     95000 docs
     [java] #################### 

     [java] Caused by: org.apache.lucene.index.CorruptIndexException: invalid 
docCount: 5312 maxDoc: 5259 
(resource=MMapIndexInput(path=".../lucene-solr/lucene/benchmark/deriv/index/_1_Lucene50Hijack_0.tim"))
     [java]     at 
org.apache.lucene.codecs.blocktree.BlockTreeTermsReader.<init>(BlockTreeTermsReader.java:193)
     [java]     at 
org.apache.lucene.codecs.lucene50.Lucene50PostingsFormat.fieldsProducer(Lucene50PostingsFormat.java:445)
     [java]     at 
org.apache.lucene.codecs.derivativeterms.TermsDerivingPostingsFormat.fieldsProducer(TermsDerivingPostingsFormat.java:137)
     [java]     at 
org.apache.lucene.codecs.perfield.PerFieldPostingsFormat$FieldsReader.<init>(PerFieldPostingsFormat.java:292)
     [java]     at 
org.apache.lucene.codecs.perfield.PerFieldPostingsFormat.fieldsProducer(PerFieldPostingsFormat.java:372)
     [java]     at 
org.apache.lucene.index.SegmentCoreReaders.<init>(SegmentCoreReaders.java:112)
     [java]     at 
org.apache.lucene.index.SegmentReader.<init>(SegmentReader.java:78)
     [java]     at 
org.apache.lucene.index.ReadersAndUpdates.getReader(ReadersAndUpdates.java:208)
     [java]     at 
org.apache.lucene.index.ReadersAndUpdates.getReaderForMerge(ReadersAndUpdates.java:836)
     [java]     at 
org.apache.lucene.index.IndexWriter.mergeMiddle(IndexWriter.java:4360)
     [java]     at 
org.apache.lucene.index.IndexWriter.merge(IndexWriter.java:4030)
     [java]     at 
org.apache.lucene.index.ConcurrentMergeScheduler.doMerge(ConcurrentMergeScheduler.java:624)
     [java]     at 
org.apache.lucene.index.ConcurrentMergeScheduler$MergeThread.run(ConcurrentMergeScheduler.java:661)
{code}

> Don't repeat postings (and perhaps positions) on ReverseWF, EdgeNGram, etc  
> ----------------------------------------------------------------------------
>
>                 Key: LUCENE-7863
>                 URL: https://issues.apache.org/jira/browse/LUCENE-7863
>             Project: Lucene - Core
>          Issue Type: Improvement
>          Components: core/index
>            Reporter: Mikhail Khludnev
>         Attachments: LUCENE-7863.hazard, LUCENE-7863.patch, 
> LUCENE-7863.patch, LUCENE-7863.patch, LUCENE-7863.patch, LUCENE-7863.patch, 
> LUCENE-7863.patch, LUCENE-7863.patch
>
>
> h2. Context
> \*suffix and \*infix\* searches on large indexes. 
> h2. Problem
> Obviously applying {{ReversedWildcardFilter}} doubles an index size, and I'm 
> shuddering to think about EdgeNGrams...
> h2. Proposal 
> _DRY_



--
This message was sent by Atlassian JIRA
(v6.4.14#64029)

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[jira] [Commented] (LUCENE-7863) Don't repeat postings (and perhaps positions) on ReverseWF, EdgeNGram, etc

Reply via email to