[
https://issues.apache.org/jira/browse/SYSTEMML-1814?page=com.atlassian.jira.plugin.system.issuetabpanels:all-tabpanel
]
Mike Dusenberry updated SYSTEMML-1814:
--------------------------------------
Sprint: Sprint 4
> Improve slide distribution of the image dataset via improved sampling policy
> ----------------------------------------------------------------------------
>
> Key: SYSTEMML-1814
> URL: https://issues.apache.org/jira/browse/SYSTEMML-1814
> Project: SystemML
> Issue Type: Improvement
> Reporter: Mike Dusenberry
> Assignee: Mike Dusenberry
>
> Currently, our models are heavily overfitting on the training dataset.
> However, further evaluation has shown that this is not the usual overfitting
> due to an over-expressive model -- in this case we are employing heavy model
> freezing (as much as only unfreezing the final softmax classifier of a
> pretrained ResNet50). Therefore, my evaluation has led me to believe that
> this is likely due to batch effects in the data, and an examination of the
> original slide distribution in the sample images dataset has shown a severe
> imbalance. Note, this is the distribution over the slide from which an image
> originated, and is distinctly different from the class distribution, which is
> much more reasonably dispersed.
> {code}
> slide_num count
> 0 436 1
> 1 116 1
> 2 468 2
> 3 38 3
> 4 195 4
> 5 173 5
> 6 13 7
> 7 481 8
> 8 83 9
> 9 349 11
> 10 490 15
> 11 292 17
> 12 281 22
> 13 387 26
> 14 326 32
> 15 286 32
> 16 88 39
> 17 477 48
> 18 205 57
> 19 135 58
> 20 127 58
> 21 16 61
> 22 245 66
> 23 5 81
> 24 306 83
> 25 284 91
> 26 263 100
> 27 15 120
> 28 345 124
> 29 380 128
> 30 24 137
> 31 382 150
> 32 1 154
> 33 421 164
> 34 163 169
> 35 278 171
> 36 235 197
> 37 332 197
> 38 343 207
> 39 43 237
> 40 249 246
> 41 113 256
> 42 496 262
> 43 482 264
> 44 86 269
> 45 415 269
> 46 472 326
> 47 422 329
> 48 450 340
> 49 108 348
> 50 3 390
> 51 191 402
> 52 272 474
> 53 85 483
> 54 97 484
> 55 210 508
> 56 293 544
> 57 41 595
> 58 452 613
> 59 220 613
> 60 406 651
> 61 67 665
> 62 260 666
> 63 361 673
> 64 269 684
> 65 50 684
> 66 304 753
> 67 101 769
> 68 433 868
> 69 4 898
> 70 499 915
> 71 145 917
> 72 357 918
> 73 365 940
> 74 82 951
> 75 126 965
> 76 185 965
> 77 164 1077
> 78 221 1086
> 79 165 1111
> 80 316 1129
> 81 350 1132
> 82 89 1162
> 83 19 1169
> 84 74 1206
> 85 132 1248
> 86 47 1278
> 87 188 1297
> 88 459 1312
> 89 368 1337
> 90 335 1368
> 91 225 1373
> 92 234 1378
> 93 487 1385
> 94 247 1464
> 95 427 1476
> 96 65 1492
> 97 402 1500
> 98 315 1557
> 99 201 1604
> 100 344 1607
> 101 273 1616
> 102 146 1623
> 103 341 1636
> 104 425 1640
> 105 182 1681
> 106 403 1682
> 107 275 1690
> 108 457 1717
> 109 448 1724
> 110 277 1729
> 111 70 1740
> 112 141 1747
> 113 264 1777
> 114 122 1880
> 115 319 1915
> 116 449 1951
> 117 104 1988
> 118 377 1993
> 119 285 2008
> 120 107 2084
> 121 410 2141
> 122 11 2148
> 123 367 2153
> 124 416 2162
> 125 311 2183
> 126 338 2206
> 127 51 2233
> 128 153 2255
> 129 144 2285
> 130 497 2358
> 131 218 2364
> 132 330 2376
> 133 308 2392
> 134 213 2480
> 135 454 2512
> 136 103 2567
> 137 446 2569
> 138 40 2622
> 139 251 2629
> 140 149 2632
> 141 455 2633
> 142 430 2669
> 143 262 2715
> 144 76 2737
> 145 18 2748
> 146 178 2763
> 147 383 2864
> 148 54 2871
> 149 223 2908
> 150 207 2931
> 151 486 3043
> 152 391 3099
> 153 342 3104
> 154 390 3116
> 155 276 3136
> 156 75 3141
> 157 181 3171
> 158 142 3213
> 159 414 3255
> 160 137 3276
> 161 295 3285
> 162 358 3315
> 163 7 3322
> 164 323 3327
> 165 71 3334
> 166 243 3344
> 167 120 3359
> 168 48 3371
> 169 434 3387
> 170 206 3404
> 171 9 3460
> 172 476 3467
> 173 32 3472
> 174 491 3496
> 175 444 3502
> 176 279 3530
> 177 59 3546
> 178 174 3556
> 179 464 3595
> 180 392 3633
> 181 99 3677
> 182 72 3682
> 183 347 3779
> 184 28 3804
> 185 314 3807
> 186 322 3809
> 187 492 3823
> 188 258 3824
> 189 230 3831
> 190 354 3887
> 191 346 3951
> 192 445 3963
> 193 209 3969
> 194 8 3986
> 195 443 3988
> 196 290 3993
> 197 118 4025
> 198 152 4026
> 199 56 4078
> 200 170 4131
> 201 84 4146
> 202 413 4150
> 203 447 4171
> 204 417 4193
> 205 60 4210
> 206 92 4265
> 207 374 4281
> 208 94 4307
> 209 161 4360
> 210 320 4408
> 211 114 4451
> 212 219 4480
> 213 90 4518
> 214 233 4528
> 215 396 4596
> 216 157 4661
> 217 117 4696
> 218 337 4724
> 219 202 4819
> 220 34 4827
> 221 105 4840
> 222 155 4841
> 223 176 4895
> 224 166 4966
> 225 456 5031
> 226 254 5085
> 227 475 5184
> 228 42 5221
> 229 172 5330
> 230 299 5358
> 231 473 5364
> 232 131 5369
> 233 61 5382
> 234 379 5470
> 235 355 5488
> 236 372 5496
> 237 53 5503
> 238 17 5523
> 239 495 5529
> 240 190 5536
> 241 451 5583
> 242 177 5630
> 243 123 5649
> 244 231 5686
> 245 217 5692
> 246 33 5742
> 247 55 5767
> 248 388 5786
> 249 318 5819
> 250 81 5838
> 251 62 5846
> 252 255 5854
> 253 485 5890
> 254 375 5928
> 255 156 5938
> 256 224 5945
> 257 267 5970
> 258 412 5987
> 259 136 6038
> 260 160 6055
> 261 240 6084
> 262 39 6093
> 263 469 6100
> 264 300 6167
> 265 183 6178
> 266 250 6195
> 267 49 6231
> 268 471 6251
> 269 334 6283
> 270 265 6422
> 271 407 6468
> 272 252 6472
> 273 466 6478
> 274 227 6528
> 275 102 6550
> 276 458 6653
> 277 140 6667
> 278 133 6668
> 279 493 6716
> 280 465 6729
> 281 370 6751
> 282 244 6772
> 283 216 6772
> 284 488 6773
> 285 95 6777
> 286 52 6788
> 287 57 6821
> 288 289 6846
> 289 362 6939
> 290 180 6944
> 291 324 6961
> 292 211 7012
> 293 73 7034
> 294 301 7094
> 295 23 7106
> 296 64 7169
> 297 420 7182
> 298 36 7219
> 299 376 7257
> 300 484 7265
> 301 253 7275
> 302 470 7312
> 303 460 7405
> 304 98 7425
> 305 302 7427
> 306 393 7435
> 307 159 7554
> 308 237 7564
> 309 274 7701
> 310 359 7769
> 311 68 7779
> 312 483 7829
> 313 151 7910
> 314 186 7948
> 315 442 7952
> 316 259 8049
> 317 246 8128
> 318 96 8129
> 319 271 8176
> 320 438 8190
> 321 87 8197
> 322 162 8226
> 323 489 8260
> 324 418 8312
> 325 31 8504
> 326 179 8532
> 327 79 8578
> 328 226 8600
> 329 27 8719
> 330 479 8862
> 331 268 8883
> 332 404 8908
> 333 46 8913
> 334 437 8961
> 335 147 9047
> 336 189 9164
> 337 20 9242
> 338 386 9356
> 339 435 9376
> 340 432 9495
> 341 408 9505
> 342 248 9509
> 343 462 9619
> 344 229 9774
> 345 193 9835
> 346 167 9871
> 347 69 9894
> 348 130 9954
> 349 327 10072
> 350 369 10078
> 351 106 10180
> 352 194 10212
> 353 325 10306
> 354 312 10344
> 355 303 10502
> 356 184 10655
> 357 463 10916
> 358 426 11055
> 359 283 11334
> 360 328 11450
> 361 129 11467
> 362 288 11806
> 363 124 12010
> 364 171 12250
> 365 121 12257
> 366 22 12276
> 367 423 12310
> 368 192 12313
> 369 378 12358
> 370 307 12366
> 371 143 12678
> 372 80 12899
> 373 66 12920
> 374 208 12970
> 375 158 13131
> 376 148 13423
> 377 119 13723
> 378 317 13830
> 379 395 13834
> 380 187 14003
> 381 25 14856
> 382 399 14905
> 383 478 16145
> 384 93 20009
> 385 215 20723
> {code}
> This task aims to improve the sampling policy to yield a more even slide
> distribution in the final image dataset, hopefully reducing the batch
> effects, and leading to improved model metric performance.
--
This message was sent by Atlassian JIRA
(v6.4.14#64029)