[Eisfair] Problem mit Softraid oder ist es ein HW Problem?

Marcus Roeckrath marcus.roeckrath at gmx.de
Di Nov 21 15:34:14 CET 2017


Hallo Helmut,

Helmut Backhaus wrote:

> ich habe zusammen mit Marcus noch etwas geforscht. Dabei haben wir
> Kernelmeldungen gefunden die mit Sicherheit mit dem Problem zu tun
> haben. Aber wir wissen nicht was sie zu bedeuten haben. Google ist da
> auch nicht sehr ergiebig, oder ich suche nach dem falschen Begriff. ;)
> 
> Hier mal das was wir gefunden haben:

Hier mal der komplette Ausschnitt, der gravierende Probleme zeigt:

ata3: lost interrupt (Status 0x50)
ata4: lost interrupt (Status 0x50)
ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata3.00: failed command: FLUSH CACHE EXT
ata3.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata3.00: status: { DRDY }
ata3: hard resetting link
ata4.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x6 frozen
ata4.00: failed command: FLUSH CACHE EXT
ata4.00: cmd ea/00:00:00:00:00/00:00:00:00:00/a0 tag 0
         res 40/00:00:00:00:00/00:00:00:00:00/00 Emask 0x4 (timeout)
ata4.00: status: { DRDY }
ata4: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata3.00: qc timeout (cmd 0x27)
ata3.00: failed to read native max address (err_mask=0x4)
ata3.00: HPA support seems broken, skipping HPA handling
ata3.00: revalidation failed (errno=-5)
ata3: hard resetting link
ata4.00: qc timeout (cmd 0x27)
ata4.00: failed to read native max address (err_mask=0x4)
ata4.00: HPA support seems broken, skipping HPA handling
ata4.00: revalidation failed (errno=-5)
ata4: hard resetting link
ata3: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata4: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata4.00: configured for UDMA/133
ata4.00: retrying FLUSH 0xea Emask 0x4
ata3.00: configured for UDMA/133
ata3.00: retrying FLUSH 0xea Emask 0x4
ata4.00: qc timeout (cmd 0xea)
ata4.00: FLUSH failed Emask 0x4
ata4: limiting SATA link speed to 1.5 Gbps
ata4.00: limiting speed to UDMA/133:PIO3
ata4: hard resetting link
ata3.00: qc timeout (cmd 0xea)
ata3.00: FLUSH failed Emask 0x4
ata3: limiting SATA link speed to 1.5 Gbps
ata3.00: limiting speed to UDMA/133:PIO3
ata3: hard resetting link
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4.00: configured for UDMA/133
ata4.00: retrying FLUSH 0xea Emask 0x4
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata3.00: configured for UDMA/133
ata3.00: retrying FLUSH 0xea Emask 0x4
ata4.00: qc timeout (cmd 0xea)
ata4.00: FLUSH failed Emask 0x4
ata4.00: disabled
ata4.00: device reported invalid CHS sector 0
ata4: hard resetting link
ata3.00: qc timeout (cmd 0xea)
ata3.00: FLUSH failed Emask 0x4
ata3.00: disabled
ata3.00: device reported invalid CHS sector 0
ata3: hard resetting link
ata4: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata4: EH complete
sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
driverbyte=0x00
sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
blk_update_request: I/O error, dev sde, sector 0
sd 3:0:0:0: [sde] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
driverbyte=0x00
sd 3:0:0:0: [sde] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
blk_update_request: I/O error, dev sde, sector 976735951
md: super_written gets error=-5
md/raid:md1: Disk failure on sde2, disabling device.
md/raid:md1: Operation continuing on 3 devices.
blk_update_request: I/O error, dev sde, sector 976735951
md: super_written gets error=-5
blk_update_request: I/O error, dev sde, sector 79
md: super_written gets error=-5
md/raid:md0: Disk failure on sde1, disabling device.
md/raid:md0: Operation continuing on 3 devices.
sd 3:0:0:0: [sde] Read Capacity(16) failed: Result: hostbyte=0x04
driverbyte=0x00
sd 3:0:0:0: [sde] Sense not available.
sd 3:0:0:0: [sde] Read Capacity(10) failed: Result: hostbyte=0x04
driverbyte=0x00
sd 3:0:0:0: [sde] Sense not available.
sde: detected capacity change from 2000398934016 to 0
ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310)
ata3: EH complete
sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
driverbyte=0x00
sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
blk_update_request: I/O error, dev sdd, sector 0
sd 2:0:0:0: [sdd] tag#0 UNKNOWN(0x2003) Result: hostbyte=0x04
driverbyte=0x00
sd 2:0:0:0: [sdd] tag#0 CDB: opcode=0x35 35 00 00 00 00 00 00 00 00 00
blk_update_request: I/O error, dev sdd, sector 976735951
md: super_written gets error=-5
md/raid:md1: Disk failure on sdd2, disabling device.
md/raid:md1: Operation continuing on 2 devices.
blk_update_request: I/O error, dev sdd, sector 976735951
md: super_written gets error=-5
blk_update_request: I/O error, dev sdd, sector 79
md: super_written gets error=-5
md/raid:md0: Disk failure on sdd1, disabling device.
md/raid:md0: Operation continuing on 2 devices.
sd 2:0:0:0: [sdd] Read Capacity(16) failed: Result: hostbyte=0x04
driverbyte=0x00
sd 2:0:0:0: [sdd] Sense not available.
sd 2:0:0:0: [sdd] Read Capacity(10) failed: Result: hostbyte=0x04
driverbyte=0x00
sd 2:0:0:0: [sdd] Sense not available.
sdd: detected capacity change from 2000398934016 to 0
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb2
 disk 1, o:1, dev:sdc2
 disk 2, o:0, dev:sdd2
 disk 3, o:0, dev:sde2
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb2
 disk 1, o:1, dev:sdc2
 disk 3, o:0, dev:sde2
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb2
 disk 1, o:1, dev:sdc2
 disk 3, o:0, dev:sde2
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb1
 disk 1, o:1, dev:sdc1
 disk 2, o:0, dev:sdd1
 disk 3, o:0, dev:sde1
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb2
 disk 1, o:1, dev:sdc2
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb1
 disk 1, o:1, dev:sdc1
 disk 3, o:0, dev:sde1
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb1
 disk 1, o:1, dev:sdc1
 disk 3, o:0, dev:sde1
RAID conf printout:
 --- level:5 rd:4 wd:2
 disk 0, o:1, dev:sdb1
 disk 1, o:1, dev:sdc1

Nach dem "lost interrupt" zu Beginn und dem Reinitialisieren folgen später
eine Reihe von "blk_update_request: I/O error"s.

IMHO eher weniger Sektorprobleme auf der Platte, als das sie ganz
ausgestiegen ist; ob das jetzt ein Board/Schnittstellen oder ein
Elektrikproblem der Platte ist, kann ich nicht sagen.

Oder instabile bzw. ungenügende Stromversorgung?

Es steigen IMHO nur md0 und md1 aus, weil md2 und md3 "nicht in aktiver
Nutzung" sind.

-- 
Gruss Marcus


Mehr Informationen über die Mailingliste Eisfair