[Eisfair] Problem mit Softraid oder ist es ein HW Problem?

Di Nov 21 16:51:47 CET 2017

Hallo Marcus,

Am 21.11.2017 um 15:34 schrieb Marcus Roeckrath:
> Hallo Helmut,
> 
> Helmut Backhaus wrote:
> 
>> ich habe zusammen mit Marcus noch etwas geforscht. Dabei haben wir
>> Kernelmeldungen gefunden die mit Sicherheit mit dem Problem zu tun
>> haben. Aber wir wissen nicht was sie zu bedeuten haben. Google ist da
>> auch nicht sehr ergiebig, oder ich suche nach dem falschen Begriff. ;)
>>
>> Hier mal das was wir gefunden haben:
> 
> Hier mal der komplette Ausschnitt, der gravierende Probleme zeigt:
> 
> ata3: lost interrupt (Status 0x50)
> ata4: lost interrupt (Status 0x50)
> ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
> ata3.00: failed command: FLUSH CACHE EXT
> ata3.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
>          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> ata3.00: status: { DRDY }
> ata3: hard resetting link
> ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
> ata4.00: failed command: FLUSH CACHE EXT
> ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
>          res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> ata4.00: status: { DRDY }
> ata4: hard resetting link
> ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata3.00: qc timeout (cmd 0x27)
> ata3.00: failed to read native max address (err_mask=0x4)
> ata3.00: HPA support seems broken, skipping HPA handling
> ata3.00: revalidation failed (errno=-5)
> ata3: hard resetting link
> ata4.00: qc timeout (cmd 0x27)
> ata4.00: failed to read native max address (err_mask=0x4)
> ata4.00: HPA support seems broken, skipping HPA handling
> ata4.00: revalidation failed (errno=-5)
> ata4: hard resetting link
> ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4.00: configured for UDMA/133
> ata4.00: retrying FLUSH 0xea Emask 0x4
> ata3.00: configured for UDMA/133
> ata3.00: retrying FLUSH 0xea Emask 0x4
> ata4.00: qc timeout (cmd 0xea)
> ata4.00: FLUSH failed Emask 0x4
> ata4: limiting SATA link speed to 1.5 Gbps
> ata4.00: limiting speed to UDMA/133:PIO3
> ata4: hard resetting link
> ata3.00: qc timeout (cmd 0xea)
> ata3.00: FLUSH failed Emask 0x4
> ata3: limiting SATA link speed to 1.5 Gbps
> ata3.00: limiting speed to UDMA/133:PIO3
> ata3: hard resetting link
> ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata4.00: configured for UDMA/133
> ata4.00: retrying FLUSH 0xea Emask 0x4
> ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata3.00: configured for UDMA/133
> ata3.00: retrying FLUSH 0xea Emask 0x4
> ata4.00: qc timeout (cmd 0xea)
> ata4.00: FLUSH failed Emask 0x4
> ata4.00: disabled
> ata4.00: device reported invalid CHS sector 0
> ata4: hard resetting link
> ata3.00: qc timeout (cmd 0xea)
> ata3.00: FLUSH failed Emask 0x4
> ata3.00: disabled
> ata3.00: device reported invalid CHS sector 0
> ata3: hard resetting link
> ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata4: EH complete
> sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sde, sector 0
> sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sde, sector 976735951
> md: super_written gets error=-5
> md/raid:md1: Disk failure on sde2, disabling device.
> md/raid:md1: Operation continuing on 3 devices.
> blk_update_request: I/O error, dev sde, sector 976735951
> md: super_written gets error=-5
> blk_update_request: I/O error, dev sde, sector 79
> md: super_written gets error=-5
> md/raid:md0: Disk failure on sde1, disabling device.
> md/raid:md0: Operation continuing on 3 devices.
> sd 3:0:0:0: [sde] Read Capacity(16) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] Sense not available.
> sd 3:0:0:0: [sde] Read Capacity(10) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] Sense not available.
> sde: detected capacity change from 2000398934016 to 0
> ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata3: EH complete
> sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sdd, sector 0
> sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sdd, sector 976735951
> md: super_written gets error=-5
> md/raid:md1: Disk failure on sdd2, disabling device.
> md/raid:md1: Operation continuing on 2 devices.
> blk_update_request: I/O error, dev sdd, sector 976735951
> md: super_written gets error=-5
> blk_update_request: I/O error, dev sdd, sector 79
> md: super_written gets error=-5
> md/raid:md0: Disk failure on sdd1, disabling device.
> md/raid:md0: Operation continuing on 2 devices.
> sd 2:0:0:0: [sdd] Read Capacity(16) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] Sense not available.
> sd 2:0:0:0: [sdd] Read Capacity(10) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] Sense not available.
> sdd: detected capacity change from 2000398934016 to 0
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb2
>  disk 1, o:1, dev:sdc2
>  disk 2, o:0, dev:sdd2
>  disk 3, o:0, dev:sde2
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb2
>  disk 1, o:1, dev:sdc2
>  disk 3, o:0, dev:sde2
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb2
>  disk 1, o:1, dev:sdc2
>  disk 3, o:0, dev:sde2
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb1
>  disk 1, o:1, dev:sdc1
>  disk 2, o:0, dev:sdd1
>  disk 3, o:0, dev:sde1
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb2
>  disk 1, o:1, dev:sdc2
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb1
>  disk 1, o:1, dev:sdc1
>  disk 3, o:0, dev:sde1
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb1
>  disk 1, o:1, dev:sdc1
>  disk 3, o:0, dev:sde1
> RAID conf printout:
>  --- level:5 rd:4 wd:2
>  disk 0, o:1, dev:sdb1
>  disk 1, o:1, dev:sdc>
> Nach dem "lost interrupt" zu Beginn und dem Reinitialisieren folgen später
> eine Reihe von "blk_update_request: I/O error"s.

Hier verstehe ich noch nicht mal "Bahnhof"

> 
> IMHO eher weniger Sektorprobleme auf der Platte, als das sie ganz
> ausgestiegen ist; ob das jetzt ein Board/Schnittstellen oder ein
> Elektrikproblem der Platte ist, kann ich nicht sagen.
> 
> Oder instabile bzw. ungenügende Stromversorgung?

Das liest Du aus den o.g. Meldungen?
Super wenn man so etwas kann!! (Das ist NICHT sarkastisch gemeint)

> 
> Es steigen IMHO nur md0 und md1 aus, weil md2 und md3 "nicht in aktiver
> Nutzung" sind.
> 

Das ist so nicht ganz richtig.
Siehe hier:
lvs
  LV                      VG  Attr       LSize   Pool Origin Data%
Meta%  Move Log Cpy%Sync Convert
  alpine02-cel01          vg0 -wi-a-----   5.00g

  alpine03-cel01          vg0 -wi-a-----   5.00g

  alpine_cel01            vg0 -wi-ao----   5.00g

  e1nagios-data           vg0 -wi-ao----   5.00g

  e1nagios-sys            vg0 -wi-ao----   4.60g

  eis-ng-cel01            vg0 -wi-ao----   3.00g

  eis1-nextcloud-data     vg0 -wi-ao----   5.00g

  eis1-nextcloud-sys      vg0 -wi-ao----   2.60g

  eis1_cel01_base         vg0 -wi-ao----   2.60g

  eis1_cel01_data         vg0 -wi-ao----   5.00g

  mint-mate-17-3          vg0 -wi-ao----  50.00g

  ub1404server_cel01-data vg0 -wi-a-----  50.00g

  ub1404server_cel01-swap vg0 -wi-a-----   4.00g

  mail                    vg1 -wi-ao----  50.00g

  omv01-lw1               vg1 -wi-ao----  15.00g

  omv01-lw2               vg1 -wi-ao----  15.00g

  omv01-lw3               vg1 -wi-ao----  15.00g

  omv01-lw4               vg1 -wi-ao----  15.00g

  omv01-sys               vg1 -wi-ao----   3.00g

  omv02-lw1               vg1 -wi-ao----  15.00g

  omv02-lw2               vg1 -wi-ao----  15.00g

  omv02-lw3               vg1 -wi-ao----  15.00g

  omv02-lw4               vg1 -wi-ao----  15.00g

  omv02-sys               vg1 -wi-ao----   5.00g

  backup                  vg3 -wi-ao---- 100.00g

  datengrab               vg3 -wi-ao----  20.00g

  datengrab02             vg3 -wi-ao----  20.00g

Und:

pvs
  PV         VG  Fmt  Attr PSize PFree
  /dev/md0   vg0 lvm2 a--  1.36t 1.22t
  /dev/md1   vg1 lvm2 a--  1.36t 1.19t
  /dev/md2   vg2 lvm2 a--  1.36t 1.36t
  /dev/md3   vg3 lvm2 a--  1.36t 1.23t

Es ist also nur die md2 nicht in Benutzung.
Da sollte eigentlich backup hin, da hatte ich mal vertippt und habe es
noch nicht bereinigt. Aber das war die Idee.

-- 
Gruß,
Helmut