kernel panic Hardware Error – какое оборудование несет ответственность?

У меня паника в ядре через день. ниже – стенограмма фотографии консоли. Как определить, какое оборудование отвечает за проблему? (или это программное обеспечение)

Сервер Ubuntu 12.04 LTS

[Hardware Error]: CPU:2 MC0_STATUS[-|UE|-|-|AddrV|UECC]: 0xb400200055000145 [Hardware Error]: MC0_ADDR: 0x0000000164fe77b0 [Hardware Error]: Data Cache Error: Data/Tag DWR error. [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DWR [Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135 [Hardware Error]: MC0_ADDR: 0x0000000164fe77b0 [Hardware Error]: Data Cache Error: Data/Tag DWD error. [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD [Hardware Error]: CPU 3: Machine Check Exception: 4 Bank 0: b66b400000000135 [Hardware Error]: TSC bc02bd350de4 ADDR 164fe7bb0 [Hardware Error]: PROCESSOR 2:100f42 TIME 1378965147 SOCKET 0 APIC 3 microcode 10000c6 [Hardware Error]: CPU:3 MC0_STATUS[-|UE|-|PCC|AddrV|CECC]: 0xb66b400000000135 [Hardware Error]: MC0_ADDR: 0x0000000164fe77b0 [Hardware Error]: Data Cache Error: Data/Tag DWD error. [Hardware Error]: cache level: L1, tx: DATA, mem-tx: DRD [Hardware Error]: Machine Check: Invalid Kernel panic - not syncing: Fatal machine check on current CPU Shutting down cpus with NMI 

Вот несколько дополнительных записей, которые я нашел:

 kernel: [58495.948100] ------------[ cut here ]------------ kernel: [58495.948108] WARNING: at /build/buildd/linux-lts-quantal-3.5.0/net/sched/sch_generic.c:255 dev_watchdog+0x272/0x280() kernel: [58495.948109] Hardware name: MS-7576 kernel: [58495.948110] NETDEV WATCHDOG: eth0 (r8169): transmit queue 0 timed out kernel: [58495.948111] Modules linked in: nfsd nfs lockd fscache auth_rpcgss nfs_acl sunrpc xfs vesafb radeon ttm drm_kms_helper snd_hda_codec_hdmi snd_hda_codec_realtek snd_hda_intel drm snd_hda_codec wmi i2c_algo_bit snd_hwdep snd_pcm snd_timer snd soundcore snd_page_alloc lp shpchp r8169 sp5100_tco i2c_piix4 firewire_ohci parport firewire_core kvm_amd edac_core k10temp edac_mce_amd serio_raw kvm mac_hid microcode crc_itu_t raid10 raid456 async_pq async_xor xor async_memcpy async_raid6_recov raid6_pq async_tx raid1 raid0 multipath linear pata_atiixp kernel: [58495.948136] Pid: 0, comm: swapper/3 Tainted: GM 3.5.0-23-generic #35~precise1-Ubuntu kernel: [58495.948137] Call Trace: kernel: [58495.948138] <IRQ> [<ffffffff81052c9f>] warn_slowpath_common+0x7f/0xc0 kernel: [58495.948144] [<ffffffff81052d96>] warn_slowpath_fmt+0x46/0x50 kernel: [58495.948146] [<ffffffff815a05b2>] dev_watchdog+0x272/0x280 kernel: [58495.948149] [<ffffffff8101be03>] ? native_sched_clock+0x13/0x80 kernel: [58495.948151] [<ffffffff810702d0>] ? __queue_work+0x330/0x330 kernel: [58495.948153] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0 kernel: [58495.948154] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0 kernel: [58495.948156] [<ffffffff81062ce6>] call_timer_fn+0x46/0x160 kernel: [58495.948158] [<ffffffff815a0340>] ? pfifo_fast_dequeue+0xe0/0xe0 kernel: [58495.948159] [<ffffffff81064632>] run_timer_softirq+0x132/0x2a0 kernel: [58495.948162] [<ffffffff810a4105>] ? ktime_get+0x65/0xe0 kernel: [58495.948164] [<ffffffff8105ba88>] __do_softirq+0xa8/0x210 kernel: [58495.948166] [<ffffffff810ab264>] ? tick_program_event+0x24/0x30 kernel: [58495.948168] [<ffffffff816a841c>] call_softirq+0x1c/0x30 kernel: [58495.948170] [<ffffffff81016245>] do_softirq+0x65/0xa0 kernel: [58495.948172] [<ffffffff8105be6e>] irq_exit+0x8e/0xb0 kernel: [58495.948174] [<ffffffff816a8d5e>] smp_apic_timer_interrupt+0x6e/0x99 kernel: [58495.948176] [<ffffffff816a7aca>] apic_timer_interrupt+0x6a/0x70 kernel: [58495.948177] <EOI> [<ffffffff8103ff56>] ? native_safe_halt+0x6/0x10 kernel: [58495.948180] [<ffffffff8101c993>] default_idle+0x53/0x1f0 kernel: [58495.948182] [<ffffffff8101d8a9>] cpu_idle+0xd9/0x120 kernel: [58495.948184] [<ffffffff8167b237>] start_secondary+0xc3/0xc5 kernel: [58495.948185] ---[ end trace ef52dc6dad6ceea1 ]--- # dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)' Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD Product Name: MS-7576 Version: 1.0 Serial Number: To Be Filled By OEM Manufacturer: MICRO-STAR INTERNATIONAL CO.,LTD Version: 1.0 Serial Number: To Be Filled By OEM Socket Designation: CPU1 Manufacturer: AMD Version: AMD Phenom(tm) II X4 B50 Processor Serial Number: To Be Filled By OEM 

4 Solutions collect form web for “kernel panic Hardware Error – какое оборудование несет ответственность?”

Да, это аппаратная проблема, в основном из-за вывода кольцевого буфера, который говорит, [Hardware Error] .

Я подозреваю системную плату, процессорный сокет или процессор …

У вас есть какие-либо подробности об оборудовании? Что сообщает следующая строка?

 dmidecode -t 1 -t 3 -t 4 | egrep '(Manufacturer|Product|Serial|Socket|Version)' 

Похоже, у вас ошибки RAM. Вы можете проверить это, запустив memtest86.

Кроме того, если у вас установлен пакет mcelog, проверьте / var / log / mcelog для получения дополнительной информации.

Я бы рекомендовал перейти на материнскую плату серверного класса, которая может обрабатывать ОЗУ ECC.

Я только что столкнулся с этой ошибкой на Dell XPS 420 Core2 Quad Q6600

Раньше у этой машины были проблемы с дыханием от предыдущих владельцев, и она была очень грязной внутри (курильщики) и нагревалась до момента перезагрузки в случайном порядке. Я не знаю, как долго это продолжалось.

Я вошел в BIOS и отключил 2 ядра на процессоре, и все, кажется, сейчас работают нормально – кажется, что процессор перегрелся настолько, что фактически выгорит 2 (или 1, поскольку я могу отключить только 2 за раз).

Теперь машина отлично работает как двойное ядро.

Я вижу исключение проверки компьютера . Это означает, что CPU обнаружил проблемы.

MCE может быть так же легко, как чтение данных из кеша, просмотр ошибки ECC и повторное попытку. Такие ошибки случаются и сейчас. (Вот почему CPU повторяет попытку в течение ограниченного количества раз).

В вашем случае мы также видим:

 Data Cache Error: Data/Tag DWR error. cache level: L1, tx: DATA, mem-tx: DWR 

Это ошибка с кешем первого уровня (который находится рядом с ядром ЦП и на той же матрице). Это не ошибка с основной памятью.

Остальная часть вашего транскрипта показывает несколько ошибок, некоторые из того же типа, но не всегда с одним и тем же ядром. На этом этапе я начну беспокоиться о том, что процессор не работает. Первое, что нужно проверить, это то, что CPU не перегревается.

Как определить, какое оборудование отвечает за проблему? (или это программное обеспечение)

Ошибки MCE часто являются аппаратными. Который, кажется, соответствует ошибкам, которые вы получили.

Если у вас есть запасной процессор, попробуйте это.

Если нет, убедитесь, что система должным образом охлаждена и контролирует температуру с течением времени.

Если вы еще этого не сделали, установите mcelog и подготовьтесь к этой статье в википедии .

  • Есть ли надежный общесистемный эквалайзер с регулируемыми полосами частот для * buntu?
  • утечка памяти xorg
  • Проблема с java3d
  • Не удается запустить службу sshd в подсистеме Windows linux
  • «Sudo crontab -e» не показывает работу cron, которую я дал
  • Pinguy OS 11.04 WiFi и проводная сеть не работают
  • Удивительный: неправильный часовой пояс
  • Отключение OpenVPN для каждого временного интервала
  • Как разогнать несколько графических процессоров Nvidia в Ubuntu
  • Настройка RAID на работающем сервере Ubuntu 14.04
  • Ошибка Skype в ubuntu 10.10
  • Linux и Unix - лучшая ОС в мире.