SparseVectorsFromSequenceFiles: ArrayIndexOutOfBoundsException in DictionaryVectorizer

Reinis Vicups Sat, 12 Jul 2014 08:39:25 -0700

Hi,

the log bellow shows an issue that started to occur just "recently" (Ihaven't ran tests with this somewhat larger dataset (320K documents) forsome time and when I did today, I got this "all of a sudden").Am using mahout 0.9-cdh5.2.0-SNAPSHOT (yes its cloudera but as far as Ican tell, that's vanilla mahout in the community edition I use).

As far as I can tell, it's happening in the middle of seq2sparse and allthree - the input, the output and the mr-job are being generated bymahout and there's no my code involved.


It would be cool if  anyone could point me to the source of this error.

thanks and kind regards
reinis.

SETTINGS OF SEQ2SPARSE
----------------------------------------------

{"--analyzerName", "com.myproj.quantify.ticket.text.TicketTextAnalyzer",
              "--chunkSize", "200",
              "--output", finalDir,
              "--input", ticketTextsOutput.toString,
              "--minSupport", "2",
              "--minDF", "2",
              "--maxDFPercent", "85",
              "--weight", "tfidf",
              "--minLLR", "50",
              "--maxNGramSize", "3",
              "--norm", "2",
              "--namedVector", "--sequentialAccessVector", "--overwrite"}


LOG
-----------------------------------------------------

14/07/12 16:46:16 INFO vectorizer.SparseVectorsFromSequenceFiles:Creating Term Frequency Vectors14/07/12 16:46:16 INFO vectorizer.DictionaryVectorizer: Creatingdictionary from /quantify/ticket/text/final/tokenized-documents andsaving at /quantify/ticket/text/final/wordcount14/07/12 16:46:16 INFO client.RMProxy: Connecting to ResourceManager athadoop114/07/12 16:46:17 INFO input.FileInputFormat: Total input paths toprocess : 1

14/07/12 16:46:17 INFO mapreduce.JobSubmitter: number of splits:2

14/07/12 16:46:17 INFO mapreduce.JobSubmitter: Submitting tokens forjob: job_1404888747437_007414/07/12 16:46:17 INFO impl.YarnClientImpl: Submitted applicationapplication_1404888747437_007414/07/12 16:46:17 INFO mapreduce.Job: The url to track the job:http://hadoop1:8088/proxy/application_1404888747437_0074/

14/07/12 16:46:17 INFO mapreduce.Job: Running job: job_1404888747437_0074

14/07/12 16:46:30 INFO mapreduce.Job: Job job_1404888747437_0074 runningin uber mode : false

14/07/12 16:46:30 INFO mapreduce.Job:  map 0% reduce 0%
14/07/12 16:46:41 INFO mapreduce.Job:  map 6% reduce 0%
14/07/12 16:46:44 INFO mapreduce.Job:  map 10% reduce 0%
14/07/12 16:46:47 INFO mapreduce.Job:  map 11% reduce 0%
14/07/12 16:46:48 INFO mapreduce.Job:  map 14% reduce 0%
14/07/12 16:46:50 INFO mapreduce.Job:  map 15% reduce 0%
14/07/12 16:46:51 INFO mapreduce.Job:  map 19% reduce 0%
14/07/12 16:46:53 INFO mapreduce.Job:  map 20% reduce 0%
14/07/12 16:46:54 INFO mapreduce.Job:  map 23% reduce 0%
14/07/12 16:46:57 INFO mapreduce.Job:  map 26% reduce 0%
14/07/12 16:47:00 INFO mapreduce.Job:  map 29% reduce 0%

14/07/12 16:47:01 INFO mapreduce.Job: Task Id :attempt_1404888747437_0074_m_000000_0, Status : FAILED

Error: java.lang.IllegalStateException: java.io.IOException: Spill failed

atorg.apache.mahout.vectorizer.collocations.llr.CollocMapper$1.apply(CollocMapper.java:140)atorg.apache.mahout.vectorizer.collocations.llr.CollocMapper$1.apply(CollocMapper.java:115)atorg.apache.mahout.math.map.OpenObjectIntHashMap.forEachPair(OpenObjectIntHashMap.java:185)atorg.apache.mahout.vectorizer.collocations.llr.CollocMapper.map(CollocMapper.java:115)atorg.apache.mahout.vectorizer.collocations.llr.CollocMapper.map(CollocMapper.java:41)

        at org.apache.hadoop.mapreduce.Mapper.run(Mapper.java:145)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:764)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:340)
        at org.apache.hadoop.mapred.YarnChild$2.run(YarnChild.java:168)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:415)

atorg.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1548)

        at org.apache.hadoop.mapred.YarnChild.main(YarnChild.java:163)
Caused by: java.io.IOException: Spill failed

atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.checkSpillException(MapTask.java:1535)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$300(MapTask.java:853)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer$Buffer.write(MapTask.java:1349)

        at java.io.DataOutputStream.write(DataOutputStream.java:107)

atorg.apache.mahout.vectorizer.collocations.llr.GramKey.write(GramKey.java:91)atorg.apache.hadoop.io.serializer.WritableSerialization$WritableSerializer.serialize(WritableSerialization.java:98)atorg.apache.hadoop.io.serializer.WritableSerialization$WritableSerializer.serialize(WritableSerialization.java:82)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.collect(MapTask.java:1126)atorg.apache.hadoop.mapred.MapTask$NewOutputCollector.write(MapTask.java:692)atorg.apache.hadoop.mapreduce.task.TaskInputOutputContextImpl.write(TaskInputOutputContextImpl.java:89)atorg.apache.hadoop.mapreduce.lib.map.WrappedMapper$Context.write(WrappedMapper.java:112)atorg.apache.mahout.vectorizer.collocations.llr.CollocMapper$1.apply(CollocMapper.java:131)

        ... 12 more
Caused by: java.lang.ArrayIndexOutOfBoundsException: 1836016430
        at java.io.ByteArrayInputStream.read(ByteArrayInputStream.java:144)
        at java.io.DataInputStream.readByte(DataInputStream.java:265)

atorg.apache.mahout.math.Varint.readUnsignedVarInt(Varint.java:159)atorg.apache.mahout.vectorizer.collocations.llr.GramKey.readFields(GramKey.java:78)atorg.apache.hadoop.io.WritableComparator.compare(WritableComparator.java:132)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.compare(MapTask.java:1245)atorg.apache.hadoop.util.QuickSort.sortInternal(QuickSort.java:105)

        at org.apache.hadoop.util.QuickSort.sort(QuickSort.java:63)

atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpill(MapTask.java:1575)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$900(MapTask.java:853)atorg.apache.hadoop.mapred.MapTask$MapOutputBuffer$SpillThread.run(MapTask.java:1505)

SparseVectorsFromSequenceFiles: ArrayIndexOutOfBoundsException in DictionaryVectorizer

Reply via email to