Hi,

we are running slurm 14.11.3 on ubuntu 14.04 with openmpi 1.6

while running a mpi job on more than 1 node with the following example script

#! /bin/bash
#SBATCH -N 2 -n 4
/usr/bin/mpiexec  -report-bindings  /home/user/test_mpi

will fail with for example output like:

Start of program at Fri Jan 23 17:38:31 CET 2015
[coma35:127807] MCW rank 0 bound to socket 0[core 0[hwt 0]]: 
[B/././././././././././.][./././././././././././.]
[coma35:127807] MCW rank 1 bound to socket 0[core 1[hwt 0]]: 
[./B/./././././././././.][./././././././././././.]
[coma35:127807] MCW rank 2 bound to socket 1[core 12[hwt 0]]: 
[./././././././././././.][B/././././././././././.]
[coma36:05733] MCW rank 3 is not bound (or bound to all available processors)


Start of program at Fri Jan 23 17:35:29 CET 2015
[coma28:11402] MCW rank 0 bound to socket 0[core 5[hwt 0]]: 
[./././././B/./././././.][./././././././././././.]
[coma28:11402] MCW rank 1 bound to socket 0[core 6[hwt 0]]: 
[././././././B/././././.][./././././././././././.]
[coma28:11402] MCW rank 2 bound to socket 0[core 7[hwt 0]]: 
[./././././././B/./././.][./././././././././././.]
[coma28:11402] MCW rank 3 bound to socket 1[core 17[hwt 0]]: 
[./././././././././././.][./././././B/./././././.]
[coma28:11402] MCW rank 4 bound to socket 1[core 18[hwt 0]]: 
[./././././././././././.][././././././B/././././.]
[coma30:123503] MCW rank 6 is not bound (or bound to all available processors)
[coma29:82293] MCW rank 5 is not bound (or bound to all available processors)
[coma31:95630] MCW rank 7 is not bound (or bound to all available processors)

whereas the same job but with
#SBATCH  -n 32  (I have used here 32 to force slurm to split the job over more 
than 1 node)
works fine and starts with

Start of program at Fri Jan 23 17:06:03 CET 2015
[coma41:101490] MCW rank 5 bound to socket 0[core 10[hwt 0]]: 
[././././././././././B/.][./././././././././././.]
[coma41:101490] MCW rank 6 bound to socket 0[core 11[hwt 0]]: 
[./././././././././././B][./././././././././././.]
[coma41:101490] MCW rank 7 bound to socket 1[core 17[hwt 0]]: 
[./././././././././././.][./././././B/./././././.]
[coma41:101490] MCW rank 8 bound to socket 1[core 18[hwt 0]]: 
[./././././././././././.][././././././B/././././.]
[coma41:101490] MCW rank 9 bound to socket 1[core 19[hwt 0]]: 
[./././././././././././.][./././././././B/./././.]
[coma41:101490] MCW rank 10 bound to socket 1[core 20[hwt 0]]: 
[./././././././././././.][././././././././B/././.]
[coma41:101490] MCW rank 11 bound to socket 1[core 21[hwt 0]]: 
[./././././././././././.][./././././././././B/./.]
[coma41:101490] MCW rank 12 bound to socket 1[core 22[hwt 0]]: 
[./././././././././././.][././././././././././B/.]
[coma41:101490] MCW rank 0 bound to socket 0[core 5[hwt 0]]: 
[./././././B/./././././.][./././././././././././.]
[coma41:101490] MCW rank 1 bound to socket 0[core 6[hwt 0]]: 
[././././././B/././././.][./././././././././././.]
[coma41:101490] MCW rank 2 bound to socket 0[core 7[hwt 0]]: 
[./././././././B/./././.][./././././././././././.]
[coma41:101490] MCW rank 3 bound to socket 0[core 8[hwt 0]]: 
[././././././././B/././.][./././././././././././.]
[coma41:101490] MCW rank 4 bound to socket 0[core 9[hwt 0]]: 
[./././././././././B/./.][./././././././././././.]
[coma42:07521] MCW rank 28 bound to socket 1[core 17[hwt 0]]: 
[./././././././././././.][./././././B/./././././.]
[coma42:07521] MCW rank 29 bound to socket 1[core 18[hwt 0]]: 
[./././././././././././.][././././././B/././././.]
[coma42:07521] MCW rank 30 bound to socket 1[core 19[hwt 0]]: 
[./././././././././././.][./././././././B/./././.]
[coma42:07521] MCW rank 31 bound to socket 1[core 20[hwt 0]]: 
[./././././././././././.][././././././././B/././.]
[coma42:07521] MCW rank 13 bound to socket 0[core 0[hwt 0]]: 
[B/././././././././././.][./././././././././././.]
[coma42:07521] MCW rank 14 bound to socket 0[core 1[hwt 0]]: 
[./B/./././././././././.][./././././././././././.]
[coma42:07521] MCW rank 15 bound to socket 0[core 2[hwt 0]]: 
[././B/././././././././.][./././././././././././.]
[coma42:07521] MCW rank 16 bound to socket 0[core 3[hwt 0]]: 
[./././B/./././././././.][./././././././././././.]
[coma42:07521] MCW rank 17 bound to socket 0[core 4[hwt 0]]: 
[././././B/././././././.][./././././././././././.]
[coma42:07521] MCW rank 18 bound to socket 0[core 5[hwt 0]]: 
[./././././B/./././././.][./././././././././././.]
[coma42:07521] MCW rank 19 bound to socket 0[core 6[hwt 0]]: 
[././././././B/././././.][./././././././././././.]
[coma42:07521] MCW rank 20 bound to socket 0[core 7[hwt 0]]: 
[./././././././B/./././.][./././././././././././.]
[coma42:07521] MCW rank 21 bound to socket 0[core 8[hwt 0]]: 
[././././././././B/././.][./././././././././././.]
[coma42:07521] MCW rank 22 bound to socket 0[core 9[hwt 0]]: 
[./././././././././B/./.][./././././././././././.]
[coma42:07521] MCW rank 23 bound to socket 1[core 12[hwt 0]]: 
[./././././././././././.][B/././././././././././.]
[coma42:07521] MCW rank 24 bound to socket 1[core 13[hwt 0]]: 
[./././././././././././.][./B/./././././././././.]
[coma42:07521] MCW rank 25 bound to socket 1[core 14[hwt 0]]: 
[./././././././././././.][././B/././././././././.]
[coma42:07521] MCW rank 26 bound to socket 1[core 15[hwt 0]]: 
[./././././././././././.][./././B/./././././././.]
[coma42:07521] MCW rank 27 bound to socket 1[core 16[hwt 0]]: 
[./././././././././././.][././././B/././././././.]


any help would be appreciated

Ben Polman




--
---------------------------------------------------------------------
Dr. B.J.W. Polman, C&CZ, University of Nijmegen.
Osiris beheerder NWI
Heyendaalseweg 135, 6525 AJ Nijmegen, The Netherlands, Phone: +31-24-3653360
e-mail: [email protected]

Reply via email to