[Eisfair] Problem mit Softraid oder ist es ein HW Problem?

Helmut Backhaus helmut.backhaus at gmx.de
Di Nov 21 18:41:49 CET 2017


Hallo Marcus,

Am 21.11.2017 um 17:42 schrieb Marcus Roeckrath:
> Hallo Helmut,
> 
> Helmut Backhaus wrote:
> 
>>> Hier mal der komplette Ausschnitt, der gravierende Probleme zeigt:
> 
>>> Nach dem "lost interrupt" zu Beginn und dem Reinitialisieren folgen
>>> später eine Reihe von "blk_update_request: I/O error"s.
>>
>> Hier verstehe ich noch nicht mal "Bahnhof"
> 
> Die mit ata3 und ata4 beginnenden Meldungen zeigen ein massives Problem in
> der Anbindung der Platten an den Controller an, den der Kernel IMHO durch
> reinitialisieren der Schnittstellen zu lösen versucht.
> 
> Das scheint aber nicht zu funktionieren, weil das auch nach Runterschalten
> auf 1.5GBps (von initial 3.0) nicht klappt:
> 
> ata4.00: FLUSH failed Emask 0x4
> ata4.00: disabled
> ata4.00: device reported invalid CHS sector 0
> ata4: hard resetting link
> ata3.00: FLUSH failed Emask 0x4
> ata3.00: disabled
> ata3.00: device reported invalid CHS sector 0
> 
> Die darauf mit "sd 2" und "sd 3" folgenden Meldungen kommen dann IMHO vom
> sd-Treiber, der keinen Kontakt zum schreiben auf die Platten bekommt.
> 
>>> IMHO eher weniger Sektorprobleme auf der Platte, als das sie ganz
>>> ausgestiegen ist; ob das jetzt ein Board/Schnittstellen oder ein
>>> Elektrikproblem der Platte ist, kann ich nicht sagen.
>>>
>>> Oder instabile bzw. ungenügende Stromversorgung?
>>
>> Das liest Du aus den o.g. Meldungen?
> 
> Komisch ist, dass zwei Platten zum gleichen Zeitpunkt aussteigen.
> 
> Warum sollten zwei Platten exakt zum gleichen Zeitpunkt ein Problem haben.
> 
> Hat das Board eventuell mehrere SATA-Controller und hängen sdd und sde an
> einem anderen als sdb und sdc? 
> 
> Da ist der erste Controller (ata1/2):
> 
> ata_piix 0000:00:1f.2: version 2.13
> ata_piix 0000:00:1f.2: MAP [ P0 P2 P1 P3 ]
> ata1: SATA max UDMA/133 cmd 0x1f0 ctl 0x3f6 bmdma 0x1c10 irq 14
> ata2: SATA max UDMA/133 cmd 0x170 ctl 0x376 bmdma 0x1c18 irq 15
> 
> Hier der zweite (ata3/4), welches genau sdd und sde sind, die aussteigen:
> 
> ata_piix 0000:00:1f.5: MAP [ P0 -- P1 -- ]
> ata3: SATA max UDMA/133 cmd 0x1c68 ctl 0x1c5c bmdma 0x1c30 irq 17
> ata4: SATA max UDMA/133 cmd 0x1c60 ctl 0x1c58 bmdma 0x1c38 irq 17
> 
> Das hängt jeweils dran:
> 
> ata4.00: ATA-9: WDC WD20EFRX-68EUZN0, 82.00A82, max UDMA/133
> ata3.00: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133
> 
> ata2.00: ATAPI: Optiarc DVD RW AD-7290H, 1.80, max UDMA/100
> ata1.00: ATA-8: MSSD120GBCSU2-D7, 604ABBF0, max UDMA/133
> ata2.01: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133
> ata1.01: ATA-8: ST2000DM001-9YN164, CC4B, max UDMA/133
> 
> Also: Wieso steigen genau die Platten an dem einen Controller zeitgleich
> aus?

Gute Frage!
Das hier zwei Controller verbaut sind wusste ich.
Macht es den evt. Sinn hier etwas zu tauschen (untereinander)?
Also DVD und SSD auf den ersten und die Platten alle auf den zweiten?

> 
> Kabel? Eher auch unwahrscheinlich, dass die sporadisch aber gleichzeitig
> Probleme bereiten (Wackelkontakt).

Die Kabel hatte ich alle mal ersetzt
> 
> Also Controller-Chip des zweiten Controllers?

Das ist natürlich eine Möglichkeit, aber warum Läuft das ganze dann über
ein halbes Jahr?

> 
> Probleme mit den wohl benachbart liegenden Boardanschlüssen für den 2.
> Controller?

Wie ist das gemeint?

> 
> Du kannst ja mal die Kabel lösen und erneut aufstecken.

Klar, mache ich nachher.

> 
> Thermisches Problem? Harrriss auf dem Board, der sich je nach Temperatur
> auswirkt? Da gehen Profis mit Kältesspray oder Wärmequelle ran, um einen
> Fehler zu provozieren.

Aber damit habe ich auch schon einen Controller zeschossen :-(

> 
>> Super wenn man so etwas kann!! (Das ist NICHT sarkastisch gemeint)
> 
> Ich sehe hier auch noch keine definitive Ursache, aber Probleme, die manches
> wahrscheinlicher anderes unwahrscheinlicher machen, wie eben ein
> Oberflächenproblem der beiden betroffenen Platten.

Das ist es ja, nichts genaues weiß man nicht ...

> 
>>> Es steigen IMHO nur md0 und md1 aus, weil md2 und md3 "nicht in aktiver
>>> Nutzung" sind.
>>
>> Das ist so nicht ganz richtig.
> 
> Aber als am 17.11. das Problem gab, wurde versucht auf md0 und md1 zu
> schreiben; wenn zu diesem Zeitpunkt auch auf die anderen md gelesen oder
> geschrieben wurde, müssten die auch aussteigen.
> 
> Schreib mal, ob das Auslesen von sdd1/2 und sde1/2 mittels dd erfolgreich
> war.
> 

Ist gerade fertig, alle vier ohne Problem, d.h. keine Fehlermeldungen
außer der in / out mit gleichen Werten die ja kommen muss!

-- 
Gruß,
Helmut



Mehr Informationen über die Mailingliste Eisfair