[Eisfair] Problem mit Softraid oder ist es ein HW Problem?
Helmut Backhaus
helmut.backhaus at gmx.de
Di Nov 21 16:51:47 CET 2017
Hallo Marcus,
Am 21.11.2017 um 15:34 schrieb Marcus Roeckrath:
> Hallo Helmut,
>
> Helmut Backhaus wrote:
>
>> ich habe zusammen mit Marcus noch etwas geforscht. Dabei haben wir
>> Kernelmeldungen gefunden die mit Sicherheit mit dem Problem zu tun
>> haben. Aber wir wissen nicht was sie zu bedeuten haben. Google ist da
>> auch nicht sehr ergiebig, oder ich suche nach dem falschen Begriff. ;)
>>
>> Hier mal das was wir gefunden haben:
>
> Hier mal der komplette Ausschnitt, der gravierende Probleme zeigt:
>
> ata3: lost interrupt (Status 0x50)
> ata4: lost interrupt (Status 0x50)
> ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
> ata3.00: failed command: FLUSH CACHE EXT
> ata3.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
> res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> ata3.00: status: { DRDY }
> ata3: hard resetting link
> ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
> ata4.00: failed command: FLUSH CACHE EXT
> ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
> res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
> ata4.00: status: { DRDY }
> ata4: hard resetting link
> ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata3.00: qc timeout (cmd 0x27)
> ata3.00: failed to read native max address (err_mask=0x4)
> ata3.00: HPA support seems broken, skipping HPA handling
> ata3.00: revalidation failed (errno=-5)
> ata3: hard resetting link
> ata4.00: qc timeout (cmd 0x27)
> ata4.00: failed to read native max address (err_mask=0x4)
> ata4.00: HPA support seems broken, skipping HPA handling
> ata4.00: revalidation failed (errno=-5)
> ata4: hard resetting link
> ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
> ata4.00: configured for UDMA/133
> ata4.00: retrying FLUSH 0xea Emask 0x4
> ata3.00: configured for UDMA/133
> ata3.00: retrying FLUSH 0xea Emask 0x4
> ata4.00: qc timeout (cmd 0xea)
> ata4.00: FLUSH failed Emask 0x4
> ata4: limiting SATA link speed to 1.5 Gbps
> ata4.00: limiting speed to UDMA/133:PIO3
> ata4: hard resetting link
> ata3.00: qc timeout (cmd 0xea)
> ata3.00: FLUSH failed Emask 0x4
> ata3: limiting SATA link speed to 1.5 Gbps
> ata3.00: limiting speed to UDMA/133:PIO3
> ata3: hard resetting link
> ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata4.00: configured for UDMA/133
> ata4.00: retrying FLUSH 0xea Emask 0x4
> ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata3.00: configured for UDMA/133
> ata3.00: retrying FLUSH 0xea Emask 0x4
> ata4.00: qc timeout (cmd 0xea)
> ata4.00: FLUSH failed Emask 0x4
> ata4.00: disabled
> ata4.00: device reported invalid CHS sector 0
> ata4: hard resetting link
> ata3.00: qc timeout (cmd 0xea)
> ata3.00: FLUSH failed Emask 0x4
> ata3.00: disabled
> ata3.00: device reported invalid CHS sector 0
> ata3: hard resetting link
> ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata4: EH complete
> sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sde, sector 0
> sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sde, sector 976735951
> md: super_written gets error=-5
> md/raid:md1: Disk failure on sde2, disabling device.
> md/raid:md1: Operation continuing on 3 devices.
> blk_update_request: I/O error, dev sde, sector 976735951
> md: super_written gets error=-5
> blk_update_request: I/O error, dev sde, sector 79
> md: super_written gets error=-5
> md/raid:md0: Disk failure on sde1, disabling device.
> md/raid:md0: Operation continuing on 3 devices.
> sd 3:0:0:0: [sde] Read Capacity(16) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] Sense not available.
> sd 3:0:0:0: [sde] Read Capacity(10) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 3:0:0:0: [sde] Sense not available.
> sde: detected capacity change from 2000398934016 to 0
> ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
> ata3: EH complete
> sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sdd, sector 0
> sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
> blk_update_request: I/O error, dev sdd, sector 976735951
> md: super_written gets error=-5
> md/raid:md1: Disk failure on sdd2, disabling device.
> md/raid:md1: Operation continuing on 2 devices.
> blk_update_request: I/O error, dev sdd, sector 976735951
> md: super_written gets error=-5
> blk_update_request: I/O error, dev sdd, sector 79
> md: super_written gets error=-5
> md/raid:md0: Disk failure on sdd1, disabling device.
> md/raid:md0: Operation continuing on 2 devices.
> sd 2:0:0:0: [sdd] Read Capacity(16) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] Sense not available.
> sd 2:0:0:0: [sdd] Read Capacity(10) failed: Result: hostbyte=0x04
> driverbyte=0x00
> sd 2:0:0:0: [sdd] Sense not available.
> sdd: detected capacity change from 2000398934016 to 0
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb2
> disk 1, o:1, dev:sdc2
> disk 2, o:0, dev:sdd2
> disk 3, o:0, dev:sde2
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb2
> disk 1, o:1, dev:sdc2
> disk 3, o:0, dev:sde2
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb2
> disk 1, o:1, dev:sdc2
> disk 3, o:0, dev:sde2
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb1
> disk 1, o:1, dev:sdc1
> disk 2, o:0, dev:sdd1
> disk 3, o:0, dev:sde1
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb2
> disk 1, o:1, dev:sdc2
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb1
> disk 1, o:1, dev:sdc1
> disk 3, o:0, dev:sde1
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb1
> disk 1, o:1, dev:sdc1
> disk 3, o:0, dev:sde1
> RAID conf printout:
> --- level:5 rd:4 wd:2
> disk 0, o:1, dev:sdb1
> disk 1, o:1, dev:sdc>
> Nach dem "lost interrupt" zu Beginn und dem Reinitialisieren folgen später
> eine Reihe von "blk_update_request: I/O error"s.
Hier verstehe ich noch nicht mal "Bahnhof"
>
> IMHO eher weniger Sektorprobleme auf der Platte, als das sie ganz
> ausgestiegen ist; ob das jetzt ein Board/Schnittstellen oder ein
> Elektrikproblem der Platte ist, kann ich nicht sagen.
>
> Oder instabile bzw. ungenügende Stromversorgung?
Das liest Du aus den o.g. Meldungen?
Super wenn man so etwas kann!! (Das ist NICHT sarkastisch gemeint)
>
> Es steigen IMHO nur md0 und md1 aus, weil md2 und md3 "nicht in aktiver
> Nutzung" sind.
>
Das ist so nicht ganz richtig.
Siehe hier:
lvs
LV VG Attr LSize Pool Origin Data%
Meta% Move Log Cpy%Sync Convert
alpine02-cel01 vg0 -wi-a----- 5.00g
alpine03-cel01 vg0 -wi-a----- 5.00g
alpine_cel01 vg0 -wi-ao---- 5.00g
e1nagios-data vg0 -wi-ao---- 5.00g
e1nagios-sys vg0 -wi-ao---- 4.60g
eis-ng-cel01 vg0 -wi-ao---- 3.00g
eis1-nextcloud-data vg0 -wi-ao---- 5.00g
eis1-nextcloud-sys vg0 -wi-ao---- 2.60g
eis1_cel01_base vg0 -wi-ao---- 2.60g
eis1_cel01_data vg0 -wi-ao---- 5.00g
mint-mate-17-3 vg0 -wi-ao---- 50.00g
ub1404server_cel01-data vg0 -wi-a----- 50.00g
ub1404server_cel01-swap vg0 -wi-a----- 4.00g
mail vg1 -wi-ao---- 50.00g
omv01-lw1 vg1 -wi-ao---- 15.00g
omv01-lw2 vg1 -wi-ao---- 15.00g
omv01-lw3 vg1 -wi-ao---- 15.00g
omv01-lw4 vg1 -wi-ao---- 15.00g
omv01-sys vg1 -wi-ao---- 3.00g
omv02-lw1 vg1 -wi-ao---- 15.00g
omv02-lw2 vg1 -wi-ao---- 15.00g
omv02-lw3 vg1 -wi-ao---- 15.00g
omv02-lw4 vg1 -wi-ao---- 15.00g
omv02-sys vg1 -wi-ao---- 5.00g
backup vg3 -wi-ao---- 100.00g
datengrab vg3 -wi-ao---- 20.00g
datengrab02 vg3 -wi-ao---- 20.00g
Und:
pvs
PV VG Fmt Attr PSize PFree
/dev/md0 vg0 lvm2 a-- 1.36t 1.22t
/dev/md1 vg1 lvm2 a-- 1.36t 1.19t
/dev/md2 vg2 lvm2 a-- 1.36t 1.36t
/dev/md3 vg3 lvm2 a-- 1.36t 1.23t
Es ist also nur die md2 nicht in Benutzung.
Da sollte eigentlich backup hin, da hatte ich mal vertippt und habe es
noch nicht bereinigt. Aber das war die Idee.
--
Gruß,
Helmut
Mehr Informationen über die Mailingliste Eisfair