[Eisfair] Problem mit Softraid oder ist es ein HW Problem?

Marcus Roeckrath marcus.roeckrath at gmx.de
Di Nov 21 17:42:52 CET 2017


Hallo Helmut,

Helmut Backhaus wrote:

>> Hier mal der komplette Ausschnitt, der gravierende Probleme zeigt:

>> Nach dem "lost interrupt" zu Beginn und dem Reinitialisieren folgen
>> später eine Reihe von "blk_update_request: I/O error"s.
> 
> Hier verstehe ich noch nicht mal "Bahnhof"

Die mit ata3 und ata4 beginnenden Meldungen zeigen ein massives Problem in
der Anbindung der Platten an den Controller an, den der Kernel IMHO durch
reinitialisieren der Schnittstellen zu lösen versucht.

Das scheint aber nicht zu funktionieren, weil das auch nach Runterschalten
auf 1.5GBps (von initial 3.0) nicht klappt:

ata4.00: FLUSH failed Emask 0x4
ata4.00: disabled
ata4.00: device reported invalid CHS sector 0
ata4: hard resetting link
ata3.00: FLUSH failed Emask 0x4
ata3.00: disabled
ata3.00: device reported invalid CHS sector 0

Die darauf mit "sd 2" und "sd 3" folgenden Meldungen kommen dann IMHO vom
sd-Treiber, der keinen Kontakt zum schreiben auf die Platten bekommt.

>> IMHO eher weniger Sektorprobleme auf der Platte, als das sie ganz
>> ausgestiegen ist; ob das jetzt ein Board/Schnittstellen oder ein
>> Elektrikproblem der Platte ist, kann ich nicht sagen.
>> 
>> Oder instabile bzw. ungenügende Stromversorgung?
> 
> Das liest Du aus den o.g. Meldungen?

Komisch ist, dass zwei Platten zum gleichen Zeitpunkt aussteigen.

Warum sollten zwei Platten exakt zum gleichen Zeitpunkt ein Problem haben.

Hat das Board eventuell mehrere SATA-Controller und hängen sdd und sde an
einem anderen als sdb und sdc? 

Da ist der erste Controller (ata1/2):

ata_piix 0000:00:1f.2: version 2.13
ata_piix 0000:00:1f.2: MAP [ P0 P2 P1 P3 ]
ata1: SATA max UDMA/133 cmd 0x1f0 ctl 0x3f6 bmdma 0x1c10 irq 14
ata2: SATA max UDMA/133 cmd 0x170 ctl 0x376 bmdma 0x1c18 irq 15

Hier der zweite (ata3/4), welches genau sdd und sde sind, die aussteigen:

ata_piix 0000:00:1f.5: MAP [ P0 -- P1 -- ]
ata3: SATA max UDMA/133 cmd 0x1c68 ctl 0x1c5c bmdma 0x1c30 irq 17
ata4: SATA max UDMA/133 cmd 0x1c60 ctl 0x1c58 bmdma 0x1c38 irq 17

Das hängt jeweils dran:

ata4.00: ATA-9: WDC WD20EFRX-68EUZN0, 82.00A82, max UDMA/133
ata3.00: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133

ata2.00: ATAPI: Optiarc DVD RW AD-7290H, 1.80, max UDMA/100
ata1.00: ATA-8: MSSD120GBCSU2-D7, 604ABBF0, max UDMA/133
ata2.01: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133
ata1.01: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133

Also: Wieso steigen genau die Platten an dem einen Controller zeitgleich
aus?

Kabel? Eher auch unwahrscheinlich, dass die sporadisch aber gleichzeitig
Probleme bereiten (Wackelkontakt).

Also Controller-Chip des zweiten Controllers?

Probleme mit den wohl benachbart liegenden Boardanschlüssen für den 2.
Controller?

Du kannst ja mal die Kabel lösen und erneut aufstecken.

Thermisches Problem? Harrriss auf dem Board, der sich je nach Temperatur
auswirkt? Da gehen Profis mit Kältesspray oder Wärmequelle ran, um einen
Fehler zu provozieren.

> Super wenn man so etwas kann!! (Das ist NICHT sarkastisch gemeint)

Ich sehe hier auch noch keine definitive Ursache, aber Probleme, die manches
wahrscheinlicher anderes unwahrscheinlicher machen, wie eben ein
Oberflächenproblem der beiden betroffenen Platten.

>> Es steigen IMHO nur md0 und md1 aus, weil md2 und md3 "nicht in aktiver
>> Nutzung" sind.
> 
> Das ist so nicht ganz richtig.

Aber als am 17.11. das Problem gab, wurde versucht auf md0 und md1 zu
schreiben; wenn zu diesem Zeitpunkt auch auf die anderen md gelesen oder
geschrieben wurde, müssten die auch aussteigen.

Schreib mal, ob das Auslesen von sdd1/2 und sde1/2 mittels dd erfolgreich
war.

-- 
Gruss Marcus


Mehr Informationen über die Mailingliste Eisfair