[Eisfair] [e64] rebuild of md0 wird angestoßen wegen "WQ_UNBOUND"

Di Apr 8 16:46:10 CEST 2025

Hallo Nelson,

Am 07.04.2025 um 01:32 schrieb Nelson Matias:
 >
 > Ich habe manuell einen Check auf meinem RAID gestartet via
 >
 > echo check > /sys/block/mdX/md/sync_action
habe ich auch gemacht:
eis # echo check > /sys/block/md0/md/sync_action
eis # cat /proc/mdstat
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] 
[raid4] [multipath]
md0 : active raid5 sdb1[2] sdc1[1] sda1[4] sdd1[0]
       11720655360 blocks super 1.2 level 5, 512k chunk, algorithm 2 
[4/4] [UUUU]
       [>....................]  check =  0.5% (20582076/3906885120) 
finish=351.0min speed=184519K/sec
       bitmap: 0/30 pages [0KB], 65536KB chunk

unused devices: <none>
eis #

top - 16:33:22 up 11 min,  2 users,  load average: 1.52, 1.06, 0.56
Tasks: 213 total,   2 running, 211 sleeping,   0 stopped,   0 zombie
%Cpu(s):  1.0 us, 19.0 sy,  0.0 ni, 77.7 id,  0.0 wa,  0.0 hi,  2.2 si, 
0.0 st
MiB Mem : 7822.102 total, 3329.059 free, 2475.043 used, 2128.207 buff/cache
MiB Swap: 15999.99+total, 15999.99+free,    0.000 used. 5347.059 avail Mem

   PID USER      PR  NI    VIRT    RES    SHR S  %CPU  %MEM     TIME+ 
COMMAND
   411 root      20   0       0      0      0 R 31.56 0.000   1:16.30 
md0_raid5
  8535 root      20   0       0      0      0 D 10.30 0.000   0:16.42 
md0_resync

bei mir steht auch check - und resync bei top ?!

 > Es ist KEIN Rebuild, sondern ein Check. Sollte aber bei diesem Check
 > etwas festgestellt werden, dann wird versucht den Fehler zu beheben. Das
 > aber löst einen echten Rebuild aus, der dann auch im log zu finden ist.
 > Meinen Recherchen nach könnte man das forcieren indem eine Swap-Datei auf
 > einem RAID1 oder RAID10 gelegt wird. Da soll es scheinbar durchaus
 > passieren, dass die beides Sets beim check nicht synchron sind.
ok ich habe mich schon etwas gewundert, dass der Zeitbedarf 
vergleichsweise gering ist - der rebuild hatte ich meine ich deutlich 
länger benötigt.
 > Hier kann das auch nachgelesen werden:
 > https://serverfault.com/questions/1104737/why-do-md-array-rebuilds-start
 >
 >> Findet sich in den Logs etwas vor 01:00:42, denn der Check muss ja 
vor dem
 >> Repair gestartet worden sein.
 > nein, bisher konnte ich keine weiteren Unregelmäßigkeiten ausmachen :/

 > 1:00 Uhr ist die default-Zeit wo der Check gestartet wird.
 > Solange in /proc/mdstat das check drin steht sollte es keine Probleme
 > geben. Nur wenn dort eben ein recovery oder repair drin steht, sollte man
 > hellhörig werden und die Platten mal überprüfen. Kam bei mir am Anfang
 > vor, war ein defektes SATA-Kabel.
 >
Vielen Dank für die ausführlichen Erklärungen!
Die einzige Frage die sich mir nun noch stellt ist - warum habe ich 
diese Meldungen vorher nicht vernommen ?!

Es kann sein, dass es damit zusammenhängt, dass ich mal weil ich (warum 
auch immer) - zuu viele mdadm Info Mails bekommen habe. (Da war ich mal 
mit Holger dran) den Schalter von No auf Yes gestellt habe:

eis # cat /etc/config.d/mdadm

START_MDADM='yes'                      # Use yes or no

MDADM_DELAY='300'                      # Polling time, default = 60 sec
MDADM_MAIL='root at intern'               # Use: mailaddress from admin
MDADM_SEND_MAIL_ON_START='yes'         # yes/no: Send email on start
MDADM_SEND_EVENT_TO_SYSLOG='yes'       # yes/no: Send event messages to 
syslog
MDADM_SEND_EVENT_MAIL='yes'            # yes/no: Send event messages as mail
MDADM_SEND_STATUS_MAIL='yes'           # yes/no: Send status messages 
periodically
MDADM_SEND_STATUS_MAIL_TIME='Sat *-*-* 4:10:00'
                                        # time string: default, Sat 
*-*-* 04:10:00
                                        # see systemd.time docu for the 
correct syntax
MDADM_MD_CHECK='yes'                   # yes/no: Check md periodically
MDADM_MD_CHECK_TIME='Sun *-*-1..7 1:00:00'
                                        # time string: default, Sun 
*-*-1..7 01:00:00
                                        # see systemd.time docu for the

Evtl. wurden diese Meldungen damit "ausgesperrt" und nun bekomme ich sie 
wieder.

Ich denke das Thema ist damit erstmal erl. Es ist ein check und kein 
Fehler und ich habe die Statusmeldungen vorher vermutlich einfach nicht 
bekommen.

Was mich wundert ich habe gestern schon wieder so eine Mail bekommen:

Dispatched from mdadm Agent on Server 'eis'
Current Date: 2025-04-07 Time: 01:07:17

Host            : eis
MD Device       : /dev/md/0
Event           : RebuildStarted

/proc/mdstat dump:
Personalities : [linear] [raid0] [raid1] [raid10] [raid6] [raid5] 
[raid4] [multipath]
md0 : active raid5 sdb1[2] sdc1[1] sdd1[0] sda1[4] (mismatch_cnt=0) 
(NOTE: No hotspare?!)
11720655360 blocks super 1.2 level 5, 512k chunk, algorithm 2 [4/4] [UUUU]
[=================>...]  check = 87.9% (3434357436/3906885120) 
finish=70.6min speed=111500K/sec
bitmap: 1/30 pages [4KB], 65536KB chunk

unused devices: <none>

sollte doch m.M. nur einmal im Monat stattfinden oder ?!

Vielen Dank & viele Grüße
Fabian

-- 
Diese E-Mail wurde von AVG-Antivirussoftware auf Viren geprüft.
www.avg.com