hallo,

ich hab mir mal zu testzwecken eine umgebung mit kvm basierend auf
debian aufgebaut.
leider bekomme ich unregelmäßig und nicht reproduzierbar (bisher) immer
fehler die zum absturz der vms führen:
kernel: [ 5982.832707] BUG: soft lockup - CPU#1 stuck for 4096s!
[pickup:2039]
kernel: [ 5982.836708] Modules linked in: ipv6 loop snd_pcm snd_timer
snd soundcore snd_page_alloc virtio_net pcspkr psmouse serio_raw
i2c_piix4 i2c_core button evdev ext3 jbd mbcache virtio_blk ide_cd_mod
cdrom ata_generic libata scsi_mod dock ide_pci_generic floppy virtio_pci
virtio_ring virtio uhci_hcd piix ide_core thermal processor fan thermal_sys
....
kernel: [ 5982.836708] Pid: 2039, comm: pickup Not tainted
2.6.26-1-amd64 #1 
kernel: [ 5982.836708] RIP: 0010:[<ffffffff8021e79d>] 
[<ffffffff8021e79d>] kvm_mmu_op+0x20/0x2f
kernel: [ 5982.836708] RSP: 0018:ffff81001e9edd38  EFLAGS: 00000246
kernel: [ 5982.836708] RAX: 0000000000000010 RBX: 0000000000000010 RCX:
000000001e9edd58
kernel: [ 5982.836708] RDX: 0000000000000000 RSI: 0000000000000010 RDI:
ffff81001e9edd58
kernel: [ 5982.836708] RBP: ffffe200005b7578 R08: ffff81001f50416c R09:
000000001f584c02
........
kernel: [ 5982.836708] Call
Trace:                                                                          
                                                                                

kernel: [ 5982.836708]  [<ffffffff8021e790>]
kvm_mmu_op+0x13/0x2f                                                            
                                                             

kernel: [ 5982.836708]  [<ffffffff8021e7dd>] ?
kvm_release_pt+0x31/0x36                                                        
                                                             

kernel: [ 5982.836708]  [<ffffffff80224202>] ?
__pte_free_tlb+0x33/0x8e                                                        
                                                             

kernel: [ 5982.836708]  [<ffffffff80281214>] ?
free_pgd_range+0x47a/0x4a3                                                      
                                                             

kernel: [ 5982.836708]  [<ffffffff8028258a>] ?
free_pgtables+0xae/0xc4                                                         
                                                             

kernel: [ 5982.836708]  [<ffffffff802839c9>] ?
exit_mmap+0x97/0xf0                                                             
                                                             

kernel: [ 5982.836708]  [<ffffffff80232640>] ?
mmput+0x2c/0xa2                                                                 
                                                             

kernel: [ 5982.836708]  [<ffffffff80237951>] ?
do_exit+0x25a/0x6b4                                                             
                                                             

kernel: [ 5982.836708]  [<ffffffff8024ac46>] ?
getnstimeofday+0x39/0x98                                                        
                                                             

kernel: [ 5982.836708]  [<ffffffff8022c202>] ?
default_wake_function+0x0/0xe                                                   
                                                             

kernel: [ 5982.836708]  [<ffffffff80237e18>] ?
do_group_exit+0x6d/0x9d                                                         
                                                             

kernel: [ 5982.836708]  [<ffffffff80237e5a>] ?
sys_exit_group+0x12/0x16                                                        
                                                             

kernel: [ 5982.836708]  [<ffffffff8020beca>] ?
system_call_after_swapgs+0x8a/0x8f

stresstests die den server veranlasst haben, zu swappen haben auch nciht
zum wiederholen des fehlers geführt, ne halbe stunde im egroupware
spielen (ich alleine) hingegen hat wieder mal nen absturz erzeugt.

fällt einem von euch da spontan was zu ein? irgendwelche vorschläge zum
weiteren debuggen? oder vlt. wo man hilfe erfragen kann? ist es ggf.
sinnvoll nen eigenen kernel zu backen für die vms?

meine umgebung sieht so aus:
physikalische HW:
**AMD Athlon(tm) 64 X2 Dual Core Processor 6000+
6GB RAM (DDR2)
2x750GB HDD mit SoftwareRaid 1

Betriebssystem wirt:
debian lenny,
kernel 2.6.26-1-amd64
basis-system + kvm-kram

Gast:
debian lenny
kernel 2.6.26-1-amd64
basis-installation
virtuelle platte ist lvm-devices

dadurch das ich den fehler nicht provozieren kann sind mir n bisserl die
hände gebunden für tests unter anderen umgebungen (zb platte als image
und nicht im lvm, anderes OS)
wenn einem dazu was einfällt wäre ich auch dankbar ;-) (also fehler
reproduzieren)

ich werde mal sehen, dass ich da ma nen anderes OS (Gentoo, Suse)
installiere und ob die fehler da auch auftauchen.

und abschliessend: gibt es vielleicht backports für die debian-kernel?
bin eigentlich nicht so der debian user ;-) geht nur viel schneller beim
testen als gentoo :-)

vielen dank für anregungen und antworten

sven
--
----------------------------------------------------------------------------
PUG - Penguin User Group Wiesbaden - http://www.pug.org

Antwort per Email an