[GitHub] spark pull request: [MLlib]OnlineLDA Performance Improvements

jkbradley Mon, 20 Jul 2015 22:24:07 -0700

Github user jkbradley commented on the pull request:

    https://github.com/apache/spark/pull/7454#issuecomment-123165239
  
    I think there's a bug.  I tried running the LDAExample as follows, and it 
failed with the following exception:
    
    I ran:
    ```
    bin/run-example mllib.LDAExample docs/*.md --maxIterations 2 --algorithm 
online --vocabSize 10 --k 3
    ```
    
    and got the exception:
    ```
     6 had an illegal value 6 had an illegal value
    
    15/07/20 22:20:57 WARN TaskSetManager: Lost task 8.0 in stage 12.0 (TID 
395, localhost): java.lang.Error
        at org.j_paine.formatter.FormatParser.<init>(FormatParser.java:353)
        at org.j_paine.formatter.FormatParser.<init>(FormatParser.java:346)
        at org.j_paine.formatter.Parsers.<init>(Formatter.java:1748)
        at org.j_paine.formatter.Parsers.theParsers(Formatter.java:1739)
        at org.j_paine.formatter.Format.<init>(Formatter.java:177)
        at org.j_paine.formatter.Formatter.<init>(Formatter.java:30)
        at org.netlib.util.Util.f77write(Util.java:429)
        at org.netlib.err.Xerbla.xerbla(err.f)
        at org.netlib.blas.Dgemv.dgemv(blas.f)
        at com.github.fommil.netlib.F2jBLAS.dgemv(F2jBLAS.java:106)
        at 
breeze.linalg.operators.DenseMatrixMultiplyStuff$implOpMulMatrix_DMD_DVD_eq_DVD$.apply(DenseMatrixOps.scala:80)
        at 
breeze.linalg.operators.DenseMatrixMultiplyStuff$implOpMulMatrix_DMD_DVD_eq_DVD$.apply(DenseMatrixOps.scala:72)
        at breeze.linalg.ImmutableNumericOps$class.$times(NumericOps.scala:135)
        at breeze.linalg.De ** On entry to 
nseMatrix.$times(DenseMatrix.scala:53)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8$$anonfun$apply$4.apply(LDAOptimizer.scala:395)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8$$anonfun$apply$4.apply(LDAOptimizer.scala:380)
        at scala.collection.Iterator$class.foreach(Iterator.scala:727)
        at 
org.apache.spark.util.random.GapSamplingReplacementIterator.foreach(RandomSampler.scala:271)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8.apply(LDAOptimizer.scala:380)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8.apply(LDAOptimizer.scala:378)
        at 
org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$17.apply(RDD.scala:686)
        at 
org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$17.apply(RDD.scala:686)
        at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
        at org.apache.spark.rdd.RDD.iterator(RDDGEMV  parameter number  6 had 
an illegal value
    D.scala:244)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:63)
        at org.apache.spark.scheduler.Task.run(Task.scala:70)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)
    
     ** On entry to DGEMV  parameter number  6 had an illegal value
    15/07/20 22:20:57 ERROR TaskSetManager: Task 8 in stage 12.0 failed 1 
times; aborting job
    Exception in thread "main" org.apache.spark.SparkException: Job aborted due 
to stage failure: Task 8 in stage 12.0 failed 1 times, most recent failure: 
Lost task 8.0 in stage 12.0 (TID 395, localhost): java.lang.Error
        at org.j_paine.formatter.FormatParser.<init>(FormatParser.java:353)
        at org.j_paine.formatter.FormatParser.<init>(FormatParser.java:346)
        at org.j_paine.formatter.Parsers.<init>(Formatter.java:1748)
        at org.j_paine.formatter.Parsers.theParsers(Formatter.java:1739)
        at org.j_paine.formatter.Format.<init>(Formatter.java:177)
        at org.j_paine.formatter.Formatter.<init>(Formatter.java:30)
        at org.netlib.util.Util.f77write(Util.java:429)
        at org.netlib.err.Xerbla.xerbla(err.f)
        at org.netlib.blas.Dgemv.dgemv(blas.f)
        at com.github.fommil.netlib.F2jBLAS.dgemv(F2jBLAS.java:106)
        at 
breeze.linalg.operators.DenseMatrixMultiplyStuff$implOpMulMatrix_DMD_DVD_eq_DVD$.apply(DenseMatrixOps.scala:80)
        at 
breeze.linalg.operators.DenseMatrixMultiplyStuff$implOpMulMatrix_DMD_DVD_eq_DVD$.apply(DenseMatrixOps.scala:72)
        at breeze.linalg.ImmutableNumericOps$class.$times(NumericOps.scala:135)
        at breeze.linalg.DenseMatrix.$times(DenseMatrix.scala:53)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8$$anonfun$apply$4.apply(LDAOptimizer.scala:395)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8$$anonfun$apply$4.apply(LDAOptimizer.scala:380)
        at scala.collection.Iterator$class.foreach(Iterator.scala:727)
        at 
org.apache.spark.util.random.GapSamplingReplacementIterator.foreach(RandomSampler.scala:271)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8.apply(LDAOptimizer.scala:380)
        at 
org.apache.spark.mllib.clustering.OnlineLDAOptimizer$$anonfun$8.apply(LDAOptimizer.scala:378)
        at 
org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$17.apply(RDD.scala:686)
        at 
org.apache.spark.rdd.RDD$$anonfun$mapPartitions$1$$anonfun$apply$17.apply(RDD.scala:686)
        at 
org.apache.spark.rdd.MapPartitionsRDD.compute(MapPartitionsRDD.scala:35)
        at org.apache.spark.rdd.RDD.computeOrReadCheckpoint(RDD.scala:277)
        at org.apache.spark.rdd.RDD.iterator(RDD.scala:244)
        at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:63)
        at org.apache.spark.scheduler.Task.run(Task.scala:70)
        at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
        at 
java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
        at 
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
        at java.lang.Thread.run(Thread.java:745)
    
    Driver stacktrace:
        at 
org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1295)
        at 
org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1286)
        at 
org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:1285)
        at 
scala.collection.mutable.ResizableArray$class.foreach(ResizableArray.scala:59)
        at scala.collection.mutable.ArrayBuffer.foreach(ArrayBuffer.scala:47)
        at 
org.apache.spark.scheduler.DAGScheduler.abortStage(DAGScheduler.scala:1285)
        at 
org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:752)
        at 
org.apache.spark.scheduler.DAGScheduler$$anonfun$handleTaskSetFailed$1.apply(DAGScheduler.scala:752)
        at scala.Option.foreach(Option.scala:236)
        at 
org.apache.spark.scheduler.DAGScheduler.handleTaskSetFailed(DAGScheduler.scala:752)
        at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.doOnReceive(DAGScheduler.scala:1506)
        at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1467)
        at 
org.apache.spark.scheduler.DAGSchedulerEventProcessLoop.onReceive(DAGScheduler.scala:1456)
        at org.apache.spark.util.EventLoop$$anon$1.run(EventLoop.scala:48)
    ```



---
If your project is set up for it, you can reply to this email and have your
reply appear on GitHub as well. If your project does not have this feature
enabled and wishes so, or if the feature is enabled but not working, please
contact infrastructure at [email protected] or file a JIRA ticket
with INFRA.
---

---------------------------------------------------------------------
To unsubscribe, e-mail: [email protected]
For additional commands, e-mail: [email protected]

[GitHub] spark pull request: [MLlib]OnlineLDA Performance Improvements

Reply via email to