Здравствуйте! Снова подниму тему работы нашего xen-dom0 на eServer x3400. На данный момент на сервере установлены xen 4.1.1 и ядро 2.6.32-xen-dom0-alt41. В качетсве гостевых систем - 4 hvm-домена с Windows и 2 pv с Linux (2.6.39-std-def-alt2. За время тестирования накопилась следующая статистика:
1) Несмотря на "глючный ACPI" все устройства работают; 2) Периодически появляются сообщения от ядра: === cut === [44022.366517] BUG: soft lockup - CPU#0 stuck for 74s! [swapper:0] [44022.366532] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid scsi_mod [last unloaded: i5000_edac] [44022.367667] CPU 0: [44022.367704] Modules linked in: xt_physdev ipt_MASQUERADE iptable_nat nf_nat nf_conntrack_ipv4 nf_defrag_ipv4 xt_state nf_conntrack ipt_REJECT iptable_mangle xt_tcpudp iptable_filter ip_tables x_tables coretemp ipmi_si bridge stp vfat fat usb_storage usb_libusual dm_multipath scsi_dh dm_mod joydev usbhid hid ide_cd_mod cdrom ata_generic ide_pci_generic pata_acpi ata_piix ehci_hcd uhci_hcd usbcore edac_core psmouse ahci piix i5k_amb i2c_i801 hwmon pcspkr nls_base libata tg3 ide_core i2c_core serio_raw evdev 8250_pnp rtc_cmos 8250 rtc_core serial_core rtc_lib ses container enclosure sg thermal button processor parport_pc aksparlnx(P) parport ipmi_devintf ipmi_msghandler tun xen_gntdev ext3 jbd mbcache sd_mod crc_t10dif aacraid scsi_mod [last unloaded: i5000_edac] [44022.369119] Pid: 0, comm: swapper Tainted: P 2.6.32-xen-dom0-alt41 #1 IBM eServer x3400-[7976L2G]- [44022.369139] RIP: e030:[<ffffffff810093aa>] [<ffffffff810093aa>] hypercall_page+0x3aa/0x1010 [44022.369186] RSP: e02b:ffffffff8154fef0 EFLAGS: 00000246 [44022.369205] RAX: 0000000000000000 RBX: ffffffff8154ffd8 RCX: ffffffff810093aa [44022.369224] RDX: 0000000000000000 RSI: 0000000000000000 RDI: 0000000000000001 [44022.369246] RBP: ffffffff8154ff08 R08: 0000000000000000 R09: 0000000000000000 [44022.369265] R10: 0000000000000000 R11: 0000000000000246 R12: ffffffff815a1b60 [44022.369285] R13: 0000000000000000 R14: 0000000000000000 R15: 0000000000000000 [44022.369308] FS: 00007f9eaa00c700(0000) GS:ffff880028038000(0000) knlGS:0000000000000000 [44022.369327] CS: e033 DS: 0000 ES: 0000 CR0: 000000008005003b [44022.369346] CR2: 00007f1ddcd5c000 CR3: 000000003c797000 CR4: 0000000000002660 [44022.369362] DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000 [44022.369382] DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400 [44022.369401] Call Trace: [44022.369436] [<ffffffff81010cc0>] ? xen_safe_halt+0x10/0x30 [44022.369472] [<ffffffff8101db20>] default_idle+0x40/0xb0 [44022.369507] [<ffffffff81014349>] cpu_idle+0x79/0xc0 [44022.369542] [<ffffffff81382d2d>] rest_init+0x6d/0x80 [44022.369576] [<ffffffff815bce55>] start_kernel+0x3f6/0x492 [44022.369613] [<ffffffff815bc2b9>] x86_64_start_reservations+0x99/0xb9 [44022.369651] [<ffffffff815c07f9>] xen_start_kernel+0x5d2/0x6b9 === cut=== Периодичность сообщений случайная. От 2 раз в сутки до раза в неделю. Количество "подвисших" процессоров также может быть как один, так и восемь (количество ядер в системе). Больше всего беспокоит то, что после этих сообщений и dom0, и domU, на которые попали подвисшие CPU, дейсвительно полностью подвисают на время, указанное в строке "BUG: soft lockup - CPU## stuck for ##s!". Это видно по сообщениям ядра в linux ([43965.911454] Clocksource tsc unstable (delta = -42949673037 ns)) и следующих за ним сообщениях от ntpd о коррекции времени; и по сообщениям от службы w32time в Windows; 3) Очень редко в dom0 появляется сообщение ядра ===cut=== EDAC MC0: UE row 1, channel-a= 0 channel-b= 1 labels "-": (Branch=0 DRAM-Bank=4 RDWR=Write RAS=5926 CAS=0 FATAL Err=0x4 (>Tmid Thermal event with intelligent throttling disabled)) ===cut=== На работе не отражается никак. Тесты памяти ошибок не выявляют, сбоев нет, перегрева не наблюдается. Из вышеперечисленного более всего беспокоит проблема (2). В BIOS все, что мог, перепробовал - отключил Enhanced C-States, поддержку S3 - ситуация не меняется. В связи с этим вопрос к Виталию Кузнецову: не могли бы Вы поделиться патчем на ACPI к нашему 2.6.32-xen-dom0? Я хотел попробовать наложить его на ядро xen-stable-2.6.39 из git://git.kernel.org/pub/scm/linux/kernel/git/konrad/xen.git и попробовать в работе его. Сейчас оно к сожалению падает при загрузке, как 2.6.32-xen-dom0-alt < alt36.2. -- WBR, Alex Moskalenko _______________________________________________ Sysadmins mailing list [email protected] https://lists.altlinux.org/mailman/listinfo/sysadmins
