Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Покотиленко Костик
В Срд, 28/11/2007 в 10:03 +0300, Alexey Lobanov пишет:
 Hi all.
 
 Конструктивный вывод такой: Disabling IRQ - не болячка, а относительно
 безобидный симптом более серьёзной беды. Типа кашля при туберкулёзе.
 
 Смотрим kernel/irq/spurious.c и видим, что кашлять оно начинает, когда
 мимо попадает 99900 прерываний из 10. То есть дело совсем плохо.
 
 Соответственно, когда я этот кашель приглушил таблеточкой /* */ , через
 полчаса самый нагруженный из винчестеров отвалился от контроллера
 совсем, перестал детектироваться при тёплой перезагрузке. Но машина при
 этом хотя бы не сдохла, и факсы продолжает исправно принимать и сейчас.
 
 Ds: в морг.

Так в чём же причина по вашему? Железо? Софт? Или их неудачная
комбинация?
Я склоняюсь к последнему.

-- 
Покотиленко Костик [EMAIL PROTECTED]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Иван Лох
On Tue, Nov 27, 2007 at 06:48:48PM +0200, Sergey Chumakov wrote:
 Live!, но увидело только 1G RAM из 2-х. Бороться с опцией mem я не стал,
 бо испугался встроенного видео, попробовал 2.6.18-5-amd64 - упало,
 заработало 2.6.18-5-686. Вот так вот. Апгрейдиться после случая потери консоли
 реально страшно теперь :)

GRUB и LILO, таки, умеют откатываться на альтернативное ядро при повторном 
старте


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Oleg Frolkov

Alexey Lobanov пишет:

Hi all.

Есть старый двухпроцессорный сервер. Зависал без видимой причины он 
давно, поменять железо я хотел ещё в 2004 году. Но так и не поменял, 
уволился. После меня - тоже не поменяли :-)


После апгрейда ядра с 2.4.25 на 2.6.23 стало совсем плохо. При большой 
нагрузке на сеть (Intel Ethernet Pro 100) или на IDE диски (карточки с 
CMD 648, CMD 649) через несколько минут ядро отключает прерывание 
нагруженного PCI устройства, примерно так:


Nov 26 11:52:29 woody kernel: irq 17: nobody cared (try booting with 
the irqpoll option)


Nov 26 11:52:29 woody kernel: Disabling IRQ #17

В данном случае это пострадал IDE-контроллер CMD-649, повод - 5 минут 
активного копирования с диска на диск. Далее, естественно,


Nov 26 11:52:49 woody kernel: hdk: dma_timer_expiry: dma status == 
0x24 - и половина дисковой подсистемы умерла.


Упомянутый параметр загрузки irqpoll не меняет в поведении системы 
абсолютно ничего. Равно как ничего (кроме номеров прерываний) не 
меняют irqfixup, nosmp, noacpi.


Говорить noapic не пробовал, но он вроде как входит в nosmp - SMP 
mode deactivated, forcing use of dummy APIC emulation.


Чипсет там странный. Broadcom он же ServerWorks CNB20LE.

Вопрос: что ещё можно покрутить в параметрах ядра и его загрузки для 
получения устойчивой работы? Можно с ущербом для производительности. 
Откат на старое ядро, увы, не проходит - по другим причинам. Да оно и 
там висло, только без диагностики.


А.Л.



Вообще-то если пишешь что отключает разные устройства то надо приводить 
все примеры. В данном случае похоже что проблемыы с
DMA у контроллера HDD. Постарайся средствами BIOS или тусованием плат 
разнести DMA контроллер на отдельное прерывание.


Вообще неплохо-бы еще сюда cat /proc/interrupts - Чтобы видно было что 
там у тебя творится.



Oleg.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Alexey Lobanov
Hi,

28.11.2007 12:04, Oleg Frolkov пишет:


 Вообще-то если пишешь что отключает разные устройства то надо приводить
 все примеры.

Скорее, это означает, что виноваты не устройства, а система. И
перечислять примеры бестолку.

 В данном случае похоже что проблемыы с
 DMA у контроллера HDD. Постарайся средствами BIOS или тусованием плат
 разнести DMA контроллер на отдельное прерывание.

Я же писал, что ничего (кроме номеров прерываний) не
меняют irqfixup, nosmp, noacpi.

А основной режим smp+apic сам всё разносит.

 
 Вообще неплохо-бы еще сюда cat /proc/interrupts - Чтобы видно было что
 там у тебя творится.

[EMAIL PROTECTED]:~# cat /proc/interrupts
   CPU0   CPU1
  0: 61  0   IO-APIC-edge  timer
  1:  4  4   IO-APIC-edge  i8042
  3:  44728  45264   IO-APIC-edge  serial
  7:  0  0   IO-APIC-edge  parport0
  8:   61246284   61249572   IO-APIC-fasteoi   rtc
 10: 40 57   IO-APIC-fasteoi   ohci_hcd:usb1
 12:   7265   7480   IO-APIC-edge  i8042
 14:   1761   1855   IO-APIC-edge  ide2
 16:  11443  11594   IO-APIC-fasteoi   ide0
 17:   1722   1670   IO-APIC-fasteoi   ide4
 18:110 82   IO-APIC-fasteoi   serial
 19:   3101   2788   IO-APIC-fasteoi   eth0
 31:493494   IO-APIC-fasteoi   acpi
NMI:  0  0
LOC: 143906 144292
ERR:  0
MIS:  0

Отваливались:

irq 16 RAID bus controller: Silicon Image, Inc. SiI 0649 Ultra ATA/100
PCI to ATA Host Controller

irq 17 RAID bus controller: Silicon Image, Inc. PCI0648

irq 19 Ethernet controller: Intel Corporation 82557/8/9 [Ethernet Pro 100]

А.Л.

 
 
 Oleg.
 
 


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Oleg Frolkov

Alexey Lobanov пишет:

Hi,

28.11.2007 12:04, Oleg Frolkov пишет:


  

Вообще-то если пишешь что отключает разные устройства то надо приводить
все примеры.



Скорее, это означает, что виноваты не устройства, а система. И
перечислять примеры бестолку.

  
Тем не менее телепатов тут нет, диагноз можно поставить только видя как 
можно больше симптомов.



Я же писал, что ничего (кроме номеров прерываний) не
меняют irqfixup, nosmp, noacpi.
  

Я не понял... это опции ядра или опции биоса?
noapic пробовал? Не noacpi а именно noapic.

А основной режим smp+apic сам всё разносит.

  
Основной режим это что? Каким образом осуществляется переключение 
основной/дополнительный?

Вообще неплохо-бы еще сюда cat /proc/interrupts - Чтобы видно было что
там у тебя творится.



[EMAIL PROTECTED]:~# cat /proc/interrupts
   CPU0   CPU1
  0: 61  0   IO-APIC-edge  timer
  1:  4  4   IO-APIC-edge  i8042
  3:  44728  45264   IO-APIC-edge  serial
  7:  0  0   IO-APIC-edge  parport0
  8:   61246284   61249572   IO-APIC-fasteoi   rtc
 10: 40 57   IO-APIC-fasteoi   ohci_hcd:usb1
 12:   7265   7480   IO-APIC-edge  i8042
 14:   1761   1855   IO-APIC-edge  ide2
 16:  11443  11594   IO-APIC-fasteoi   ide0
 17:   1722   1670   IO-APIC-fasteoi   ide4
 18:110 82   IO-APIC-fasteoi   serial
 19:   3101   2788   IO-APIC-fasteoi   eth0
 31:493494   IO-APIC-fasteoi   acpi
NMI:  0  0
LOC: 143906 144292
ERR:  0
MIS:  0

  
Если я не туплю то 0-15 Это основной контроллер прерываний, 16 - выше 
это APIC.



Отваливались:

irq 16 RAID bus controller: Silicon Image, Inc. SiI 0649 Ultra ATA/100
PCI to ATA Host Controller

irq 17 RAID bus controller: Silicon Image, Inc. PCI0648

irq 19 Ethernet controller: Intel Corporation 82557/8/9 [Ethernet Pro 100]

А.Л.

  

Отваливалось все что на APIC.

Возможные варианты лечения:
1. Обновить BIOS чтобы пофиксить ошибки программирования APIC. Мне 
помогало на многих материнках на которых

ядро 2.6 вообще не грузилось без noapic.

2. Отключить apic в BIOS - тогда все должно рассаживаться в пределах 
0-15 прерываний.


3. Отключить APIC при загрузке ядра


Других вариантов вроде-бы нет

Oleg.


--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Sergey Chumakov
Hi Иван,

* Иван Лох [EMAIL PROTECTED]
* 2007-11-28 11:01:
 On Tue, Nov 27, 2007 at 06:48:48PM +0200, Sergey Chumakov wrote:
  заработало 2.6.18-5-686. Вот так вот. Апгрейдиться после случая
  потери консоли
  реально страшно теперь :)
 
 GRUB и LILO, таки, умеют откатываться на альтернативное ядро при
 повторном старте

Это если оно грузиться. В моем случае с потерей консоли старое ядро
не загрузилось c новым /.

-- 
Best regards,
Sergey Chumakov 2:450/77[.43]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-28 Пенетрантность Alexey Lobanov
Hi all.

28.11.2007 15:19, Oleg Frolkov пишет:

 Тем не менее телепатов тут нет, 

Дык. Поэтому я и не рассчитываю на диагноз, а надеюсь получить свежие
идеи для диагностики на месте. Это обмен опытом, а не техподдержка IBM :-)

 диагноз можно поставить только видя как
 можно больше симптомов.

Точно.


 Основной режим это что? Каким образом осуществляется переключение
 основной/дополнительный?

Основной, штатный режим работы ядра SMP. Если ничего не говорить ему при
загрузке.

 Вообще неплохо-бы еще сюда cat /proc/interrupts - Чтобы видно было что
 там у тебя творится.
 

 [EMAIL PROTECTED]:~# cat /proc/interrupts
CPU0   CPU1
   0: 61  0   IO-APIC-edge  timer
   1:  4  4   IO-APIC-edge  i8042
   3:  44728  45264   IO-APIC-edge  serial
   7:  0  0   IO-APIC-edge  parport0
   8:   61246284   61249572   IO-APIC-fasteoi   rtc
  10: 40 57   IO-APIC-fasteoi   ohci_hcd:usb1
  12:   7265   7480   IO-APIC-edge  i8042
  14:   1761   1855   IO-APIC-edge  ide2
  16:  11443  11594   IO-APIC-fasteoi   ide0
  17:   1722   1670   IO-APIC-fasteoi   ide4
  18:110 82   IO-APIC-fasteoi   serial
  19:   3101   2788   IO-APIC-fasteoi   eth0
  31:493494   IO-APIC-fasteoi   acpi
 NMI:  0  0
 LOC: 143906 144292
 ERR:  0
 MIS:  0

   
 Если я не туплю то 0-15 Это основной контроллер прерываний, 16 - выше
 это APIC.

Насколько я понимаю, в SMP режиме они всё APIC. О чём прямо сказано выше.

 Возможные варианты лечения:

 2. Отключить apic в BIOS - тогда все должно рассаживаться в пределах
 0-15 прерываний.
 
 3. Отключить APIC при загрузке ядра

Дык. Тот же результат достигается nosmp в загрузке. Всё рассаживается
в пределах 15, и при хорошей нагрузке на ide4, ide5 Disabled
оказывался irq 12.


 
 
 Других вариантов вроде-бы нет

Так я уже написал про вариант, который оказался конструктивным.
Закомментировать вызов disable_irq в kernel/irq/spurious.c. После
этого машина перестаёт хотя бы виснуть, и с ней можно разговаривать дальше.

Далее, сегодня утром один из винчестеров был перенесён с карты которая
irq17 на свободный IDE канал на мамке, поганый ServerWorks OSB4. И -
ГЛЮКИ ПОЛНОСТЬЮ ИСЧЕЗЛИ.

Возможных объяснений два.

1. Чип CMD-649 под ядром 2.6 категорически не смог работать с двумя
каналами. До этого почему-то 6 лет как-то работал под 2.4...

2. Источником проблем был именно СВОБОДНЫЙ контроллер ServerWorks. В
пользу этого говорит то, что при отсутствии винта ядро не присваивало
этому устройству прерывания вообще (по lspci). То есть не до конца его
конфигурировало (Will probe later в загрузке) - и  мог гнать в шину
какой-то мусор?

А.Л.


 
 Oleg.
 
 


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-27 Пенетрантность Покотиленко Костик
В Пнд, 26/11/2007 в 23:08 +0300, Alexey Lobanov пишет:
 Nov 26 11:52:29 woody kernel: irq 17: nobody cared (try booting with the 
 irqpoll option)
 Nov 26 11:52:29 woody kernel: Disabling IRQ #17
 Nov 26 11:52:49 woody kernel: hdk: dma_timer_expiry: dma status == 0x24 
 - и половина дисковой подсистемы умерла.

Такая же проблема была на старой машине (Duron ~800) с NIC Intel
PRO/1000 GT при большой нагрузке на сеть. На драйвер e1000 запостено
куча багрепортов по этой теме, но толком решения нет. Лично я для себя
сделал вывод, что причина в багонутых матерях в области работы с IRQ.

-- 
Покотиленко Костик [EMAIL PROTECTED]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-27 Пенетрантность Nikita V. Youshchenko
 Вопрос: что ещё можно покрутить в параметрах ядра и его загрузки для
 получения устойчивой работы? Можно с ущербом для производительности.
 Откат на старое ядро, увы, не проходит - по другим причинам. Да оно и
 там висло, только без диагностики.

Если железо неисправно, то париться с ним - пустая трата времени.
А ваше время вероятно стоит больше, чем новое железо.


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-27 Пенетрантность Покотиленко Костик
В Вто, 27/11/2007 в 14:19 +0300, Nikita V. Youshchenko пишет:
  Вопрос: что ещё можно покрутить в параметрах ядра и его загрузки для
  получения устойчивой работы? Можно с ущербом для производительности.
  Откат на старое ядро, увы, не проходит - по другим причинам. Да оно и
  там висло, только без диагностики.
 
 Если железо неисправно, то париться с ним - пустая трата времени.
 А ваше время вероятно стоит больше, чем новое железо.

Дело в том, что железо исправно, так сказать. Intel'овские сетевухи
заменили обычные по $8 - проблем нет. Intel'овские на другой, более
современной машине работают нормально. Железо новое уже заказываем, но
не по причине неисправности старого, а по причине увеличения трафика.
Машина работает в качестве роутера, раньше ходил траф до 100Мбит/с,
будет до 3Гбит/с.

-- 
Покотиленко Костик [EMAIL PROTECTED]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-27 Пенетрантность Sergey Chumakov
Hi Покотиленко,

* Покотиленко Костик [EMAIL PROTECTED]
* 2007-11-27 15:01:
 Такая же проблема была на старой машине (Duron ~800) с NIC Intel
 PRO/1000 GT при большой нагрузке на сеть. На драйвер e1000 запостено
 куча багрепортов по этой теме, но толком решения нет. Лично я для себя
 сделал вывод, что причина в багонутых матерях в области работы с IRQ.

Лет 8 у меня стоит компак 2500 2хPPro. Ядра на нем стояли с 2.0.х
C включенным SMP тоже падал раз в неделю обязательно на ровном месте
(без SMP работал пока питание не рубили).
Полечилось это разнесением сетевых карт по разным шинам PCI (там их две,
включенных через какой-то мост).
Естественно своеобразный биос там с опциями по многопроцессорности,
тоже были ньюансы.

Сейчас etch c 2.6, я уже спрашивал - начал глючить интерфейс на tlan (ну
может от старости). Был перевернут в сторону инета а его место занял
ee100. С самой первой установки 2.6 я потерял консоль. т.е. она есть, но
похоже на 10х80. Машине пора на списание, но все таки проблема
скорее всего не в ней.

Да, вместо этого компака поставил сервер на A64x2 asus mATX что-то на
nForce 6100. 2.6.18-4-486 заработало только после оключения в биосе CQ и
Live!, но увидело только 1G RAM из 2-х. Бороться с опцией mem я не стал,
бо испугался встроенного видео, попробовал 2.6.18-5-amd64 - упало,
заработало 2.6.18-5-686. Вот так вот. Апгрейдиться после случая потери консоли
реально страшно теперь :)

-- 
Best regards,
Sergey Chumakov 2:450/77[.43]


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



Re: kernel: Disabling IRQ...

2007-11-27 Пенетрантность Alexey Lobanov
Hi all.

Конструктивный вывод такой: Disabling IRQ - не болячка, а относительно
безобидный симптом более серьёзной беды. Типа кашля при туберкулёзе.

Смотрим kernel/irq/spurious.c и видим, что кашлять оно начинает, когда
мимо попадает 99900 прерываний из 10. То есть дело совсем плохо.

Соответственно, когда я этот кашель приглушил таблеточкой /* */ , через
полчаса самый нагруженный из винчестеров отвалился от контроллера
совсем, перестал детектироваться при тёплой перезагрузке. Но машина при
этом хотя бы не сдохла, и факсы продолжает исправно принимать и сейчас.

Ds: в морг.

А.Л.

 Такая же проблема была на старой машине (Duron ~800) с NIC Intel
 PRO/1000 GT при большой нагрузке на сеть. На драйвер e1000 запостено
 куча багрепортов по этой теме, но толком решения нет. Лично я для себя
 сделал вывод, что причина в багонутых матерях в области работы с IRQ.


-- 
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]



kernel: Disabling IRQ...

2007-11-26 Пенетрантность Alexey Lobanov

Hi all.

Есть старый двухпроцессорный сервер. Зависал без видимой причины он 
давно, поменять железо я хотел ещё в 2004 году. Но так и не поменял, 
уволился. После меня - тоже не поменяли :-)


После апгрейда ядра с 2.4.25 на 2.6.23 стало совсем плохо. При большой 
нагрузке на сеть (Intel Ethernet Pro 100) или на IDE диски (карточки с 
CMD 648, CMD 649) через несколько минут ядро отключает прерывание 
нагруженного PCI устройства, примерно так:


Nov 26 11:52:29 woody kernel: irq 17: nobody cared (try booting with the 
irqpoll option)


Nov 26 11:52:29 woody kernel: Disabling IRQ #17

В данном случае это пострадал IDE-контроллер CMD-649, повод - 5 минут 
активного копирования с диска на диск. Далее, естественно,


Nov 26 11:52:49 woody kernel: hdk: dma_timer_expiry: dma status == 0x24 
- и половина дисковой подсистемы умерла.


Упомянутый параметр загрузки irqpoll не меняет в поведении системы 
абсолютно ничего. Равно как ничего (кроме номеров прерываний) не меняют 
irqfixup, nosmp, noacpi.


Говорить noapic не пробовал, но он вроде как входит в nosmp - SMP 
mode deactivated, forcing use of dummy APIC emulation.


Чипсет там странный. Broadcom он же ServerWorks CNB20LE.

Вопрос: что ещё можно покрутить в параметрах ядра и его загрузки для 
получения устойчивой работы? Можно с ущербом для производительности. 
Откат на старое ядро, увы, не проходит - по другим причинам. Да оно и 
там висло, только без диагностики.


А.Л.



--
To UNSUBSCRIBE, email to [EMAIL PROTECTED]
with a subject of unsubscribe. Trouble? Contact [EMAIL PROTECTED]