mdadm RAID10 – изменение сломанного диска

Сегодня мой сервер перестал отвечать на ssh, ping, поэтому я поехал в серверную комнату. Сервер не отвечал на клавиатуру (даже Ctrl-Alt-Del), на экране не было данных (это было черным, никаких символов на нем), поэтому я решил перезагрузить его с помощью кнопки на корпусе. После нескольких попыток запустить систему (она не загружается больше, чем GRUB и черный экран сразу после нее), я открыл настройку BIOS и увидел, что один диск из массива (один из 4 в программном обеспечении mdadm RAID10) разбился. В BIOS это было:

SATA Port 1 INTEL SSDSC2CW060A3 (60.0GB) SATA Port 2 ST1000DM003-1CH162 (1000.2GB) SATA Port 3 ST1000DM003-1CH162 (1000.2GB) SATA Port 4 Not Present SATA Port 5 ST1000DM003-1CH162 (1000.2GB) 

Я отключил этот диск, и система запустилась, но без массива. Теперь я получаю новый тот же диск, который установлен на месте неисправного. Но RAID 10 не восстанавливается автоматически (как я думал). При загрузке я вижу

 The disk drive for UUID=a3462d0b-7261-48da-8e13-6de332e4de33 is not ready yet or not present keys:Continue to wait, or Press S to skip mounting or M for manual recovery The disk drive for /var/log is not ready yet or not present keys:Continue to wait, or Press S to skip mounting or M for manual recovery The disk drive for /mnt/vm is not ready yet or not present keys:Continue to wait, or Press S to skip mounting or M for manual recovery 

/etc/mdadm/mdadm.conf

 CREATE owner=root group=disk mode=0660 auto=yes HOMEHOST <system> MAILADDR root ARRAY /dev/md/0 metadata=1.2 name=rockshock:0 UUID=02f2f445:de9ba929:f6a3e9da:249f8e42 

/ И т.д. / Fstab

 UUID=6760d8f4-2816-4b54-8938-ab11b329705b / ext4 noatime,errors=remount-ro 0 1 UUID=7593-A7EC /boot/efi vfat defaults 0 1 UUID=a3462d0b-7261-48da-8e13-6de332e4de33 none swap sw 0 0 /dev/raid/logs /var/log ext4 noatime,noexec 0 2 /dev/raid/vm /mnt/vm ext4 noatime,noexec 0 2 

Вот некоторые данные о том, что я habe (должен ли я предоставить больше?):

$ cat / proc / mdstat

 Personalities : [linear] [multipath] [raid0] [raid1] [raid6] [raid5] [raid4] [raid10] md0 : inactive sdb[3](S) sdd[0](S) sde[1](S) 2929894536 blocks super 1.2 unused devices: <none> 

$ blkid

 /dev/sdb: UUID="02f2f445-de9b-a929-f6a3-e9da249f8e42" UUID_SUB="917412df-140c-dbc6-68ad-57e981cbcff9" LABEL="rockshock:0" TYPE="linux_raid_member" /dev/sdc1: UUID="7593-A7EC" TYPE="vfat" /dev/sdc2: UUID="6760d8f4-2816-4b54-8938-ab11b329705b" TYPE="ext4" /dev/sdd: UUID="02f2f445-de9b-a929-f6a3-e9da249f8e42" UUID_SUB="0904482c-1a9a-1174-6936-805c8a466493" LABEL="rockshock:0" TYPE="linux_raid_member" /dev/sde: UUID="02f2f445-de9b-a929-f6a3-e9da249f8e42" UUID_SUB="9badcfe0-f4a4-cd0c-baa8-3d4ebc46c56e" LABEL="rockshock:0" TYPE="linux_raid_member" 

$ sudo mdadm –detail / dev / md0

 mdadm: md device /dev/md0 does not appear to be active. 

$ sudo mdadm –examine –scan -v

 ARRAY /dev/md/0 level=raid10 metadata=1.2 num-devices=4 UUID=02f2f445:de9ba929:f6a3e9da:249f8e42 name=rockshock:0 devices=/dev/sde,/dev/sdd,/dev/sdb 

$ sudo mdadm –examine / dev / sd [abde]

  /dev/sdb: Magic : a92b4efc Version : 1.2 Feature Map : 0x0 Array UUID : 02f2f445:de9ba929:f6a3e9da:249f8e42 Name : rockshock:0 (local to host rockshock) Creation Time : Wed Jan 1 16:40:06 2014 Raid Level : raid10 Raid Devices : 4 Avail Dev Size : 1953263024 (931.39 GiB 1000.07 GB) Array Size : 1953262592 (1862.78 GiB 2000.14 GB) Used Dev Size : 1953262592 (931.39 GiB 1000.07 GB) Data Offset : 262144 sectors Super Offset : 8 sectors State : clean Device UUID : 917412df:140cdbc6:68ad57e9:81cbcff9 Update Time : Sat Jul 25 04:18:34 2015 Checksum : 1f73fe53 - correct Events : 727 Layout : near=2 Chunk Size : 512K Device Role : Active device 3 Array State : AAAA ('A' == active, '.' == missing) /dev/sdd: Magic : a92b4efc Version : 1.2 Feature Map : 0x0 Array UUID : 02f2f445:de9ba929:f6a3e9da:249f8e42 Name : rockshock:0 (local to host rockshock) Creation Time : Wed Jan 1 16:40:06 2014 Raid Level : raid10 Raid Devices : 4 Avail Dev Size : 1953263024 (931.39 GiB 1000.07 GB) Array Size : 1953262592 (1862.78 GiB 2000.14 GB) Used Dev Size : 1953262592 (931.39 GiB 1000.07 GB) Data Offset : 262144 sectors Super Offset : 8 sectors State : clean Device UUID : 0904482c:1a9a1174:6936805c:8a466493 Update Time : Sat Jul 25 04:25:38 2015 Checksum : 269e217e - correct Events : 731 Layout : near=2 Chunk Size : 512K Device Role : Active device 0 Array State : AA.A ('A' == active, '.' == missing) /dev/sde: Magic : a92b4efc Version : 1.2 Feature Map : 0x0 Array UUID : 02f2f445:de9ba929:f6a3e9da:249f8e42 Name : rockshock:0 (local to host rockshock) Creation Time : Wed Jan 1 16:40:06 2014 Raid Level : raid10 Raid Devices : 4 Avail Dev Size : 1953263024 (931.39 GiB 1000.07 GB) Array Size : 1953262592 (1862.78 GiB 2000.14 GB) Raid Level : raid10 Raid Devices : 4 Avail Dev Size : 1953263024 (931.39 GiB 1000.07 GB) Array Size : 1953262592 (1862.78 GiB 2000.14 GB) Used Dev Size : 1953262592 (931.39 GiB 1000.07 GB) Data Offset : 262144 sectors Super Offset : 8 sectors State : clean Device UUID : 9badcfe0:f4a4cd0c:baa83d4e:bc46c56e Update Time : Sat Jul 25 04:25:38 2015 Checksum : 4100486e - correct Events : 731 Layout : near=2 Chunk Size : 512K Device Role : Active device 1 Array State : AA.A ('A' == active, '.' == missing) 

$ sudo fdisk -l

 Disk /dev/sda: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x00000000 Disk /dev/sdb: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x00092197 Device Boot Start End Blocks Id System Disk /dev/sdc: 60.0 GB, 60022480896 bytes 255 heads, 63 sectors/track, 7297 cylinders, total 117231408 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 512 bytes I/O size (minimum/optimal): 512 bytes / 512 bytes Disk identifier: 0x00000000 Device Boot Start End Blocks Id System /dev/sdc1 1 117231407 58615703+ ee GPT Disk /dev/sdd: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x0003765c Device Boot Start End Blocks Id System Disk /dev/sde: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x000ca97d Device Boot Start End Blocks Id System /dev/sdc1 1 117231407 58615703+ ee GPT Disk /dev/sdd: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x0003765c Device Boot Start End Blocks Id System Disk /dev/sde: 1000.2 GB, 1000204886016 bytes 255 heads, 63 sectors/track, 121601 cylinders, total 1953525168 sectors Units = sectors of 1 * 512 = 512 bytes Sector size (logical/physical): 512 bytes / 4096 bytes I/O size (minimum/optimal): 4096 bytes / 4096 bytes Disk identifier: 0x000ca97d Device Boot Start End Blocks Id System 

Поэтому я прошу истекать с mdadm: поверните меня в правильном направлении, что я должен делать в этой ситуации.

  1. Могу ли я получить данные из массива, прежде чем что-то делать? ()
  2. По какой причине «mdadm -detail / dev / md0» говорит мне, что md0 неактивен? Это нормальное поведение с RAID10?
  3. Как сказать mdadm забыть о старом диске в массиве не по логическому имени?
  4. И как правильно добавить новый диск в качестве замены неудавшегося в массиве?

Спасибо.

/dev/sdb : События: 727

/dev/sdd : События: 731

/dev/sde : События: 731

Похоже, что у вас был сбой с двумя дисками: /dev/sdb перенесла кратковременную ошибку около 04:18:34 и был удален из массива, а затем /dev/sdc произошел с ошибкой около 04:25:38 таким образом, который вызвал весь массив, чтобы замерзнуть. Поскольку количество событий для /dev/sdb ниже, чем у /dev/sdd и /dev/sde , mdadm не будет включать его при запуске массива, а два оставшихся диска недостаточно для формирования полного массива RAID 10 ( по-видимому, они являются зеркалами друг друга).

Процедура восстановления RAID-массива Linux RAID для восстановления несостоявшегося массива должна работать для RAID 10 так же, как и для RAID 5/6. Ключевым шагом является mdadm игнорировать несоответствие счетчика событий с помощью флага --force ; цель остальной процедуры заключается в том, чтобы заранее выяснить, вернет ли это ваши данные или уничтожит их.