Mes essais avec Torque ne donnent rien de différent... ça reste définitivement "queued".

Job id              Name             User             Time Use S Queue
------------------- ---------------- ---------------- -------- - -----
4.myvatn5           test             sc                      0 Q batch

Ca doit être ce satané pbs_sched qui ne prend pas; pbs_server est pourtant démarré avec le flag -a 1 pour lui dire qu'un scheduler est actif...

J'ai donc tenté de compiler Maui.

Et bardaf, quelle que soit le patch release il crash alors que le configure me sort un RC 0

myvatn5:/usr/local/src/maui-3.2.6p14 # make
(...)
MPBSI.c:6404: error: dereferencing pointer to incomplete type
MPBSI.c:6404: error: `ATTR_queue' undeclared (first use in this function)
MPBSI.c:6415: error: dereferencing pointer to incomplete type
make[1]: *** [MPBSI.o] Error 1
make[1]: Leaving directory `/usr/local/src/maui-3.2.6p14/src/moab'
make: *** [all] Error 2

Ca me ferait mal de devoir passer à SGE rien que sur ce serveur et laisser PBS sur le vieux cluster.

Le 29-déc.-05 à 12:57, Alain EMPAIN a écrit :


Re,

je viens de revoir mes notes, mais j'ai juste essayé pbs_sched, puis me suis occupé de moab (en test pour 1 mois, pas eu tout le temps que j'aurais voulu pour tester le scheduling de n clusters :-{ )

Je retrouve 'pbsnodes -c un_node' qui m'avait permis de localiser certains problèmes de bloquage :
* le premier, évident, est un scheduler absent,
* le deuxième concerne un problème de config qui rend les nodes incapables de servir la queue.

        Alain


Vincent JAMART wrote:
Merci pour les infos Alain, je vais aller voir du côté de Torque!
En fait j'ai déja pbs_sched actif sur le système, avec juste ca dans son /scratch/pbsspool/sched_priv/sched_config:
round_robin: False      all
by_queue: True          prime
by_queue: True          non_prime
strict_fifo: false      ALL
fair_share: false       ALL
help_starving_jobs      true    ALL
sort_queues     true    ALL
load_balancing: false   ALL
sort_by: shortest_job_first     ALL
log_filter: 256
dedicated_prefix: ded
max_starve: 24:00:00
half_life: 24:00:00
unknown_shares: 10
sync_time: 1:00:00
Son log donne ca, et le config file est bien lu (j'ai essayé en le virant ;) ):
12/29/2005 11:05:18;0002; pbs_sched;Svr;Log;Log opened
12/29/2005 11:05:18;0002; pbs_sched;Svr;main;/opt/pbs/sbin/ pbs_sched startup pid 19088
sinon dans /scratch/pbsspool/mom_priv/config il y a juste:
$clienthost myvatn5
et son log donne:
12/29/2005 10:49:47;0002;   pbs_mom;Svr;Log;Log opened
12/29/2005 10:49:47;0002;   pbs_mom;n/a;initialize;independent
12/29/2005 10:49:47;0002;   pbs_mom;Svr;pbs_mom;Is up
Pourtant le job reste queued:
myvatn5.fft:
Req'd Req'd Elap Job ID Username Queue Jobname SessID NDS TSK Memory Time S Time --------------- -------- -------- ---------- ------ --- --- ------ ----- - ----- 28.myvatn5.fft sc default test -- -- -- 7500mb -- Q --
En effet, c'est comme si le pbs_sched n'était pas actif... argh
Le 29-déc.-05 à 10:50, Alain EMPAIN a écrit :
Salut Vincent,

openPBS / Torque gère les queues mais pas le scheduling.

Cela vaudrait la peine d'installer la dernière version (openPbs est devenu Torque : http://www.clusterresources.com/products/ torque)

En fait tu as le choix d'au moins 3 scheduler, dont le plus basique est pbs_sched je crois (fourni avec torque).

Il y a maui (open) et moab (très souple mais payant).

Donc tes queues sont bien constituées mais il n'y a encore personne pour donner des ordres...

    Bon réveillon,

    ALain

Vincent JAMART wrote:

Hello
Je viens d'activer PBS sur un node test de notre cluster Opteron/ Suse 9.2-64 mais j'ai un truc bizarre: tous les jobs exécutés par mes users se mettent en Queue mais ne Run pas directement, je dois passer root et faire un qrun sur l'id du job. Sur le cluster de production, j'ai une plus ancienne version de OpenPBS compilée by myself et avec le même type de définition c'est OK. Ici, ce sont les RPM de la SuSE. J'ai bien mom, server et sched qui tournent. Pourtant, la définition de ma queue d'exécution est on ne peut plus basique et le serveur aussi:
myvatn5:~ # pbsnodes -a
myvatn5
     state = free
     np = 1
     properties = stdscratch
     ntype = cluster
myvatn5:~ # qstat -B -f
Server: myvatn5.fft
    server_state = Active
    scheduling = True
    total_jobs = 0
state_count = Transit:0 Queued:0 Held:0 Waiting:0 Running: 0 Exiting:0
    acl_host_enable = False
    acl_hosts = myvatn5
    acl_user_enable = False
    managers = [EMAIL PROTECTED]
    default_queue = default
    log_events = 511
    mail_from = adm
    query_other_jobs = True
    scheduler_iteration = 600
    default_node = myvatn5
    pbs_version = OpenPBS_2.4
myvatn5:~ # qmgr
Qmgr: print server
#
# Create queues and set their attributes.
#
#
# Create and define queue default
#
create queue default
set queue default queue_type = Execution
set queue default resources_max.mem = 7500mb
set queue default enabled = True
set queue default started = True
#
# Set server attributes.
#
set server scheduling = True
set server acl_host_enable = False
set server acl_hosts = myvatn5
set server acl_user_enable = False
set server managers = [EMAIL PROTECTED]
set server default_queue = default
set server log_events = 511
set server mail_from = adm
set server query_other_jobs = True
set server scheduler_iteration = 600
set server default_node = myvatn5
Je comprends pas, j'ai joué avec les ACL, et le ntype et ca ne change rien... helpeu
--
Vincent JAMART
DBA/UNIX System Engineer
http://www.vjamart.com
[EMAIL PROTECTED]
_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://lists.unixtech.be/cgi-bin/mailman/ listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech


--
" Do something for freedom every day "
    * support Open Document Format : use OpenOffice
    * take a look on :
    http://www.skypoint.com/members/mfinley/toffler.htm
    Alvin Toffler 'The Third Wave', more than a quarter of century
    old, and yet so pertinent !

The first wave : the age of agriculture began... The second wave was an expression of machine muscle, the Industrial Revolution... Just as the machine seemed at its most invincible, however, we began to receive intimations of a gathering third wave, based not on muscle but on mind... social demands worldwide for freedom and individuation.
<alain.empain.vcf>
_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://lists.unixtech.be/cgi-bin/mailman/ listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech
--
Vincent JAMART
DBA/UNIX System Engineer
http://www.vjamart.com
[EMAIL PROTECTED]
_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://lists.unixtech.be/cgi-bin/mailman/ listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech

--
" Do something for freedom every day "
        * support Open Document Format : use OpenOffice
        * take a look on :
        http://www.skypoint.com/members/mfinley/toffler.htm
        Alvin Toffler 'The Third Wave', more than a quarter of century
        old, and yet so pertinent !

The first wave : the age of agriculture began... The second wave was an expression of machine muscle, the Industrial Revolution... Just as the machine seemed at its most invincible, however, we began to receive intimations of a gathering third wave, based not on muscle but on mind... social demands worldwide for freedom and individuation.
<alain.empain.vcf>
_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://lists.unixtech.be/cgi-bin/mailman/ listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech

--
Vincent JAMART
DBA/UNIX System Engineer
http://www.vjamart.com
[EMAIL PROTECTED]



_______________________________________________________
Linux Mailing List - http://www.unixtech.be
Subscribe/Unsubscribe: http://lists.unixtech.be/cgi-bin/mailman/listinfo/linux
Archives: http://www.mail-archive.com/linux@lists.unixtech.be
IRC: chat.unixtech.be:6667 - #unixtech
NNTP: news.gname.org - gmane.org.user-groups.linux.unixtech

Répondre à