[Eisfair] smartmon E-64

Kay Martinen kay at martinen.de
Mi Dez 25 13:51:31 CET 2019


Am 25.12.2019 um 12:40 schrieb Marcus Röckrath:
> 
> Kay Martinen wrote:
> 
>>> Mit einer Handvoll neuem Code habe ich die Auflösung der Zeitachse an die
>>> Datenmenge angepasst.
>>
>>  das es nach dem aktivieren nicht wochen/monate/x dauert
>> bis der Graph in der Horizontalen etwas erkennbares Anzeigt?
> 
> Ein paar Anmerkungen zu smart und den Graphen, denn ich glaube, das man auch
> zuviel erwartet.

Wenn du meine obige Erwartung meinst, so glaube ich das nicht.

> Die Graphen sind aus meiner Sicht eher ein Gimmick, als ein Indikator für
> Probleme oder das genaue Gegenteil (perfekte Funktion der Platte).
> 
> Die Graphen bilden nur alle Stunde einen Augenblickwert.

Das sehe ich etwas anders denn eine Graphische Repräsentation auf die
man ganz nach belieben schauen kann ist m.E. durchaus hilfreich um einen
Trend besser erkennen zu lassen.  Und auch wenn es "augenblickswerte"
sind, es sind immer noch die Werte die die Platte selbst intern
speichert - nur nach außen transportiert und grafisch über der Zeit
aufgetragen. Ein 'smartctl' aufruf leistet das meistens nicht. Nicht
jede platte hat ein errorlog o.a. Features.


> Wer weiß wirklich, wie die Graphen zu interpretieren sind?

Ich weiß sicherlich auch nicht bei jedem Wert (nicht graph) was da
hundertprozentig dahinter steht, ich denke bei den wichtigen aber schon.

> Ich habe vor Jahren zwei Platten innerhalb von wenigen Stunden sterben
> sehen, deren SMART-Werte völlig unauffällig waren.

War das ein Softraid? Im Rebuild?

> Andererseits habe ich hier seit Jahren eine Platte am Start, deren
> SMART-Werte durchaus "komische" Werte anzeigen.

Z.b.? Einen pending-sector auf einer viel genutzten Platte der kommt und
wieder verschwindet? IMHO kann sowas auch an der Firmware liegen die den
erst später "auffrischt" und er dann wieder lesbar wird.

> Wichtig am Paket sind vielmehr, dass Änderungen bestimmter Parameter über
> den Daemon sofort per Mail dem Admin gemeldet werden - z. B.
> Current_Pending_Sector oder Reallocated_Sector_Ct.

Ok. Steht eigentlich irgendwo welche parameter automatisch alarmiert werden?

Ich trage in der smartmon config bei jeder platte erst mal manuell den
parameter 194 mit eigener Threshold nach weil ich nicht sehe das
smartmon mich da über temperatur-änderungen von haus aus erinnert.
Vielleicht nicht wichtig genug, aber das beobachten dieser Werte (u.a.
im graph, mittels hddtemp/eisgraph/mod_hddtemp) hat mir früher schon
geholfen die Kühlung der Platten die zu heiß werden zu verbessern. Das
ist gewissermaßen "Prefailure-care" denn eine zu heiße Platte hat auch
ein höheres Ausfalls-risiko. Außerdem kann ich dann diese Werte/Platten
auch mittels gkrellm(d) aus der Ferne "im Blick" behalten.


> Bei ersterem Problem gehe ich dann mit dump2fs und Co ran, um festzustellen,
> welche Datei betroffen ist, ob der Sektor durch neues beschreiben wieder ok
> ist oder umgelagert wird, ...
> 
> Da muss man aber genau wissen, was man tut.

Sicher muß man das. Aber beim ersten pending-sector schon, ist das nicht
auch etwas überreagiert da gleich mit schwerem Gerät an zu rücken? Wenn
danach der reallocated count um eins erhöht bleibt sollte das auch noch
früh genug sein meine ich.

Aber, vielleicht weiß ich ja auch nicht was man da tut...


Kay

-- 
Sent via SN (Eisfair-1)


Mehr Informationen über die Mailingliste Eisfair