[Eisfair] [e64] rebuild of md0 wird angestoßen wegen "WQ_UNBOUND"
Nelson Matias
nelson at anires.de
Mo Apr 7 01:32:12 CEST 2025
Hallo Marcus,
am Sun, 06 Apr 2025 22:22:45 +0200 schrieb Marcus in spline.eisfair
>>> Das steht schon im check von mdadm
>>>
>>> /usr/share/mdadm/mdcheck
>>
>> das der check angestoßen und durchgeführt wird finde ich ja gut, nur
>> warum wird bei mir in dem Fall ein rebuild des raid5 angestoßen/ausgelöst?
>
>Warum? Das dürfte die Feststellung eines Problems gewesen sein.
Ich denke hier liegt ein Missverständnis vor.
>Wenn aber die Logs auf der Kiste keinen Grund nennen, wird ihn hier auch
>niemand sagen können.
Ich denke es gibt keinen Grund. Siehe unten.
>> Dispatched from mdadm Agent on Server 'eis'
>> Current Date: 2025-04-06 Time: 01:00:42
>>
>> Host : eis
>> MD Device : /dev/md/0
>> Event : RebuildStarted
>
>Das kam also per lokaler Mail?
Das ist die Mail vom mdadm, wenn der etwas auf dem RAID bemerkt.
Ich habe manuell einen Check auf meinem RAID gestartet via
echo check > /sys/block/mdX/md/sync_action
Und prompt auch so eine Mail bekommen.
>> /proc/mdstat dump:
>> Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5]
>> [raid4] [multipath]
>> md0 : active raid5 sda1[4] sdd1[0] sdc1[1] sdb1[2] (mismatch_cnt=0)
>> (NOTE: No hotspare?!)
>> 11720655360 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/4] [UUUU]
>> [>....................] check = 0.1% (7486300/3906885120)
^^^^^
hier steht was eigentlich passiert!
Es ist KEIN Rebuild, sondern ein Check. Sollte aber bei diesem Check
etwas festgestellt werden, dann wird versucht den Fehler zu beheben. Das
aber löst einen echten Rebuild aus, der dann auch im log zu finden ist.
Meinen Recherchen nach könnte man das forcieren indem eine Swap-Datei auf
einem RAID1 oder RAID10 gelegt wird. Da soll es scheinbar durchaus
passieren, dass die beides Sets beim check nicht synchron sind.
Hier kann das auch nachgelesen werden:
https://serverfault.com/questions/1104737/why-do-md-array-rebuilds-start
>Findet sich in den Logs etwas vor 01:00:42, denn der Check muss ja vor dem
>Repair gestartet worden sein.
1:00 Uhr ist die default-Zeit wo der Check gestartet wird.
Solange in /proc/mdstat das check drin steht sollte es keine Probleme
geben. Nur wenn dort eben ein recovery oder repair drin steht, sollte man
hellhörig werden und die Platten mal überprüfen. Kam bei mir am Anfang
vor, war ein defektes SATA-Kabel.
--
Gruß
Nelson
Mehr Informationen über die Mailingliste Eisfair