[Eisfair] smartmon E-64

Marcus Röckrath marcus.roeckrath at gmx.de
Mi Dez 25 15:25:28 CET 2019


Hallo Kay,

Kay Martinen wrote:

>> Ich habe vor Jahren zwei Platten innerhalb von wenigen Stunden sterben
>> sehen, deren SMART-Werte völlig unauffällig waren.
> 
> War das ein Softraid? Im Rebuild?
> 
>> Andererseits habe ich hier seit Jahren eine Platte am Start, deren
>> SMART-Werte durchaus "komische" Werte anzeigen.

Das hat mit Softraid überhaupt nichts zu tun, wenn die Platte physisch
stirbt - und das dann auch tut, ohne vorher dies in den smart-Daten
anzudeuten.

> Z.b.? Einen pending-sector auf einer viel genutzten Platte der kommt und
> wieder verschwindet? IMHO kann sowas auch an der Firmware liegen die den
> erst später "auffrischt" und er dann wieder lesbar wird.
> 
>> Wichtig am Paket sind vielmehr, dass Änderungen bestimmter Parameter über
>> den Daemon sofort per Mail dem Admin gemeldet werden - z. B.
>> Current_Pending_Sector oder Reallocated_Sector_Ct.
> 
> Ok. Steht eigentlich irgendwo welche parameter automatisch alarmiert
> werden?

IMHO werden alle Parameter-Änderungen außer 194 (Temperatur) gemeldet; die
zugehörige Kommandozeile sieht man in /etc/smartd.conf.

Außerdem wird regelmäßig der long-Selbsttest (1x wöchentlich) und der
short-Selbsttest (täglich) getriggert.

Wenn die nicht durchlaufen, wäre das durchaus ein Alarmsignal.

> Ich trage in der smartmon config bei jeder platte erst mal manuell den
> parameter 194 mit eigener Threshold nach weil ich nicht sehe das
> smartmon mich da über temperatur-änderungen von haus aus erinnert.

Die sind im Default ignoriert, weil der IMHO wirklich nicht sehr relevant
ist, denn wenn der extrem hoch wird, hast du im Rechner sowieso ein
massives thermisches Problem.

Die hdtemps kannst du auch im eisgraph zeigen lassen.

> Vielleicht nicht wichtig genug, aber das beobachten dieser Werte (u.a.
> im graph, mittels hddtemp/eisgraph/mod_hddtemp) hat mir früher schon
> geholfen die Kühlung der Platten die zu heiß werden zu verbessern. Das
> ist gewissermaßen "Prefailure-care" denn eine zu heiße Platte hat auch
> ein höheres Ausfalls-risiko. Außerdem kann ich dann diese Werte/Platten
> auch mittels gkrellm(d) aus der Ferne "im Blick" behalten.

Klar, das macht man beim thermischen Design eines Rechners; wenn das einmal
ausgewogen ist, läuft das auch dauerhaft gut.

> Sicher muß man das. Aber beim ersten pending-sector schon, ist das nicht
> auch etwas überreagiert da gleich mit schwerem Gerät an zu rücken? Wenn
> danach der reallocated count um eins erhöht bleibt sollte das auch noch
> früh genug sein meine ich.

Pending Sektoren gehe ich immer nach. Was ist der Sinn darin, ein Problem zu
ignorieren, nur weil man sich nicht zu helfen weiß?

Wenn sich Pending Sektoren nicht beheben lassen, wird ein wesentliche Platte
sofort ausgetauscht!

> Aber, vielleicht weiß ich ja auch nicht was man da tut...

Ich kann nur sagen, das kostet Zeit; aber nur so sehe ich, ob der Sektor nur
mal zufällig und dauerhaft nicht lesbar ist.

-- 
Gruß Marcus
[eisfair-Team]


Mehr Informationen über die Mailingliste Eisfair