Hi, we are running slurm 14.11.3 on ubuntu 14.04 with openmpi 1.6 while running a mpi job on more than 1 node with the following example script #! /bin/bash #SBATCH -N 2 -n 4 /usr/bin/mpiexec -report-bindings /home/user/test_mpi will fail with for example output like: Start of program at Fri Jan 23 17:38:31 CET 2015 [coma35:127807] MCW rank 0 bound to socket 0[core 0[hwt 0]]: [B/././././././././././.][./././././././././././.] [coma35:127807] MCW rank 1 bound to socket 0[core 1[hwt 0]]: [./B/./././././././././.][./././././././././././.] [coma35:127807] MCW rank 2 bound to socket 1[core 12[hwt 0]]: [./././././././././././.][B/././././././././././.] [coma36:05733] MCW rank 3 is not bound (or bound to all available processors) Start of program at Fri Jan 23 17:35:29 CET 2015 [coma28:11402] MCW rank 0 bound to socket 0[core 5[hwt 0]]: [./././././B/./././././.][./././././././././././.] [coma28:11402] MCW rank 1 bound to socket 0[core 6[hwt 0]]: [././././././B/././././.][./././././././././././.] [coma28:11402] MCW rank 2 bound to socket 0[core 7[hwt 0]]: [./././././././B/./././.][./././././././././././.] [coma28:11402] MCW rank 3 bound to socket 1[core 17[hwt 0]]: [./././././././././././.][./././././B/./././././.] [coma28:11402] MCW rank 4 bound to socket 1[core 18[hwt 0]]: [./././././././././././.][././././././B/././././.] [coma30:123503] MCW rank 6 is not bound (or bound to all available processors) [coma29:82293] MCW rank 5 is not bound (or bound to all available processors) [coma31:95630] MCW rank 7 is not bound (or bound to all available processors) whereas the same job but with #SBATCH -n 32 (I have used here 32 to force slurm to split the job over more than 1 node) works fine and starts with Start of program at Fri Jan 23 17:06:03 CET 2015 [coma41:101490] MCW rank 5 bound to socket 0[core 10[hwt 0]]: [././././././././././B/.][./././././././././././.] [coma41:101490] MCW rank 6 bound to socket 0[core 11[hwt 0]]: [./././././././././././B][./././././././././././.] [coma41:101490] MCW rank 7 bound to socket 1[core 17[hwt 0]]: [./././././././././././.][./././././B/./././././.] [coma41:101490] MCW rank 8 bound to socket 1[core 18[hwt 0]]: [./././././././././././.][././././././B/././././.] [coma41:101490] MCW rank 9 bound to socket 1[core 19[hwt 0]]: [./././././././././././.][./././././././B/./././.] [coma41:101490] MCW rank 10 bound to socket 1[core 20[hwt 0]]: [./././././././././././.][././././././././B/././.] [coma41:101490] MCW rank 11 bound to socket 1[core 21[hwt 0]]: [./././././././././././.][./././././././././B/./.] [coma41:101490] MCW rank 12 bound to socket 1[core 22[hwt 0]]: [./././././././././././.][././././././././././B/.] [coma41:101490] MCW rank 0 bound to socket 0[core 5[hwt 0]]: [./././././B/./././././.][./././././././././././.] [coma41:101490] MCW rank 1 bound to socket 0[core 6[hwt 0]]: [././././././B/././././.][./././././././././././.] [coma41:101490] MCW rank 2 bound to socket 0[core 7[hwt 0]]: [./././././././B/./././.][./././././././././././.] [coma41:101490] MCW rank 3 bound to socket 0[core 8[hwt 0]]: [././././././././B/././.][./././././././././././.] [coma41:101490] MCW rank 4 bound to socket 0[core 9[hwt 0]]: [./././././././././B/./.][./././././././././././.] [coma42:07521] MCW rank 28 bound to socket 1[core 17[hwt 0]]: [./././././././././././.][./././././B/./././././.] [coma42:07521] MCW rank 29 bound to socket 1[core 18[hwt 0]]: [./././././././././././.][././././././B/././././.] [coma42:07521] MCW rank 30 bound to socket 1[core 19[hwt 0]]: [./././././././././././.][./././././././B/./././.] [coma42:07521] MCW rank 31 bound to socket 1[core 20[hwt 0]]: [./././././././././././.][././././././././B/././.] [coma42:07521] MCW rank 13 bound to socket 0[core 0[hwt 0]]: [B/././././././././././.][./././././././././././.] [coma42:07521] MCW rank 14 bound to socket 0[core 1[hwt 0]]: [./B/./././././././././.][./././././././././././.] [coma42:07521] MCW rank 15 bound to socket 0[core 2[hwt 0]]: [././B/././././././././.][./././././././././././.] [coma42:07521] MCW rank 16 bound to socket 0[core 3[hwt 0]]: [./././B/./././././././.][./././././././././././.] [coma42:07521] MCW rank 17 bound to socket 0[core 4[hwt 0]]: [././././B/././././././.][./././././././././././.] [coma42:07521] MCW rank 18 bound to socket 0[core 5[hwt 0]]: [./././././B/./././././.][./././././././././././.] [coma42:07521] MCW rank 19 bound to socket 0[core 6[hwt 0]]: [././././././B/././././.][./././././././././././.] [coma42:07521] MCW rank 20 bound to socket 0[core 7[hwt 0]]: [./././././././B/./././.][./././././././././././.] [coma42:07521] MCW rank 21 bound to socket 0[core 8[hwt 0]]: [././././././././B/././.][./././././././././././.] [coma42:07521] MCW rank 22 bound to socket 0[core 9[hwt 0]]: [./././././././././B/./.][./././././././././././.] [coma42:07521] MCW rank 23 bound to socket 1[core 12[hwt 0]]: [./././././././././././.][B/././././././././././.] [coma42:07521] MCW rank 24 bound to socket 1[core 13[hwt 0]]: [./././././././././././.][./B/./././././././././.] [coma42:07521] MCW rank 25 bound to socket 1[core 14[hwt 0]]: [./././././././././././.][././B/././././././././.] [coma42:07521] MCW rank 26 bound to socket 1[core 15[hwt 0]]: [./././././././././././.][./././B/./././././././.] [coma42:07521] MCW rank 27 bound to socket 1[core 16[hwt 0]]: [./././././././././././.][././././B/././././././.] any help would be appreciated Ben Polman -- --------------------------------------------------------------------- Dr. B.J.W. Polman, C&CZ, University of Nijmegen. Osiris beheerder NWI Heyendaalseweg 135, 6525 AJ Nijmegen, The Netherlands, Phone: +31-24-3653360 e-mail: [email protected]
