[Eisfair] Absturz, Log-Datei vor dem Absturz
Marcus Roeckrath
marcus.roeckrath at gmx.de
Sa Feb 13 11:19:00 CET 2016
Hallo Alex,
habe ein wenig in Deine gesammelten Daten reingeschaut; ier mal der
kritische Zeitpunkt vom 12.2. ab 13:25.
1. Die Load steigt urplötzlich an:
top - 13:25:00 up 1 day, 12:10, 9 users, load average: 0.07, 0.03, 0.05
top - 13:30:00 up 1 day, 12:15, 9 users, load average: 3.87, 2.00, 0.83
top - 13:35:00 up 1 day, 12:20, 9 users, load average: 4.00, 3.27, 1.70
top - 13:40:00 up 1 day, 12:25, 8 users, load average: 4.05, 3.76, 2.35
top - 13:45:00 up 1 day, 12:30, 8 users, load average: 4.08, 3.99, 2.84
top - 13:50:00 up 1 day, 12:35, 8 users, load average: 4.15, 4.07, 3.19
top - 13:55:00 up 1 day, 12:40, 8 users, load average: 4.03, 4.06, 3.43
top - 14:00:00 up 1 day, 12:45, 8 users, load average: 4.08, 4.06, 3.60
top - 14:05:00 up 1 day, 12:50, 8 users, load average: 4.12, 4.08, 3.73
top - 14:10:00 up 1 day, 12:55, 9 users, load average: 4.08, 4.10, 3.84
top - 14:15:00 up 1 day, 13:00, 10 users, load average: 4.09, 4.06, 3.89
top - 14:20:00 up 1 day, 13:05, 9 users, load average: 4.25, 4.09, 3.94
top - 14:25:00 up 1 day, 13:10, 9 users, load average: 4.01, 4.06, 3.97
top - 14:30:00 up 1 day, 13:15, 9 users, load average: 4.02, 4.06, 3.99
top - 14:35:00 up 1 day, 13:20, 9 users, load average: 4.00, 4.02, 3.99
top - 14:40:00 up 1 day, 13:25, 9 users, load average: 4.12, 4.08, 4.02
top - 14:45:00 up 1 day, 13:30, 8 users, load average: 4.06, 4.09, 4.05
top - 14:50:00 up 1 day, 13:35, 8 users, load average: 4.01, 4.04, 4.05
top - 14:55:00 up 1 day, 13:40, 8 users, load average: 4.00, 4.01, 4.05
top - 15:00:00 up 1 day, 13:45, 8 users, load average: 4.12, 4.08, 4.06
top - 15:05:00 up 1 day, 13:50, 8 users, load average: 4.03, 4.05, 4.05
top - 15:10:00 up 1 day, 13:55, 7 users, load average: 4.05, 4.05, 4.05
top - 15:15:00 up 1 day, 14:00, 6 users, load average: 4.09, 4.06, 4.05
top - 15:20:00 up 1 day, 14:05, 6 users, load average: 4.06, 4.07, 4.05
top - 15:25:00 up 1 day, 14:10, 4 users, load average: 4.00, 4.04, 4.05
top - 15:30:00 up 1 day, 14:15, 4 users, load average: 4.13, 4.09, 4.06
top - 15:35:00 up 1 day, 14:20, 4 users, load average: 4.21, 4.13, 4.07
top - 15:40:00 up 1 day, 14:25, 4 users, load average: 4.00, 4.06, 4.05
top - 15:45:00 up 1 day, 14:30, 4 users, load average: 4.09, 4.07, 4.05
top - 15:50:00 up 1 day, 14:35, 4 users, load average: 4.06, 4.07, 4.05
top - 15:55:00 up 1 day, 14:40, 4 users, load average: 4.01, 4.04, 4.05
top - 16:00:00 up 1 day, 14:45, 4 users, load average: 4.00, 4.02, 4.05
top - 16:05:00 up 1 day, 14:50, 4 users, load average: 4.15, 4.14, 4.10
top - 16:10:00 up 1 day, 14:55, 4 users, load average: 4.09, 4.14, 4.12
top - 16:15:00 up 1 day, 15:00, 4 users, load average: 4.06, 4.07, 4.09
top - 16:20:00 up 1 day, 15:05, 4 users, load average: 4.26, 4.14, 4.12
top - 16:25:00 up 1 day, 15:10, 4 users, load average: 4.51, 4.37, 4.24
top - 16:30:00 up 1 day, 15:15, 4 users, load average: 4.02, 4.17, 4.20
top - 16:35:00 up 1 day, 15:20, 4 users, load average: 4.01, 4.07, 4.14
top - 16:40:00 up 1 day, 15:25, 4 users, load average: 4.19, 4.15, 4.15
top - 16:45:00 up 1 day, 15:30, 4 users, load average: 4.38, 4.33, 4.23
Von einer ganz normalen Load um 13:25 springt sie dann auf knapp 4 und
erholt sich nicht mehr.
2. messages 13:25-13:27:36
Feb 12 13:25:00 myeis fcron[31074]: Job '/bin/bash /data/vol-bac/mon'
started for user root (pid 31075)
Feb 12 13:25:02 myeis fcron[31074]: Job '/bin/bash /data/vol-bac/mon'
completed
Feb 12 13:25:21 myeis OVPN_server[3435]: alap/185.10.94.1:1194 Need IPv6
code in mroute_extract_addr_from_packet
Feb 12 13:26:50 myeis apcupsd[3823]: Communications with UPS lost.
Feb 12 13:27:36 myeis kernel: INFO: rcu_sched detected stall on CPU 1
(t=15000 jiffies)
Feb 12 13:27:36 myeis kernel: Pid: 3652, comm: smbd Tainted: G O
3.2.75-eisfair-1-VIRT #1
Feb 12 13:27:36 myeis kernel: Call Trace:
Feb 12 13:27:36 myeis kernel: [__rcu_pending+0x64/0x28f]
__rcu_pending+0x64/0x28f
Jetzt knallt der Kernel einen Trace mit der Prozess-ID 3652 (smbd) raus.
Dieser Prozess sieht in der top-Ausgabe aber unauffällig aus.
Das wiederholt sich, bis (Stunden später; Ende gegen 16:45) nichts mehr
geht, wobei irgendwann der OOM-Killer ins Spiel kommt.
3. Ram um 13:30:
MemTotal: 6235724 kB
MemFree: 264948 kB
Buffers: 380672 kB
Cached: 4236428 kB
SwapCached: 188 kB
Active: 3215236 kB
Inactive: 2504116 kB
Active(anon): 958904 kB
Inactive(anon): 144764 kB
Active(file): 2256332 kB
Inactive(file): 2359352 kB
Unevictable: 0 kB
Mlocked: 0 kB
HighTotal: 5377992 kB
HighFree: 91296 kB
LowTotal: 857732 kB
LowFree: 173652 kB
SwapTotal: 265068 kB
SwapFree: 261936 kB
Dirty: 140 kB
Writeback: 0 kB
AnonPages: 1101908 kB
Mapped: 35940 kB
Shmem: 1408 kB
Slab: 224300 kB
SReclaimable: 204684 kB
SUnreclaim: 19616 kB
KernelStack: 2696 kB
PageTables: 7088 kB
NFS_Unstable: 0 kB
Bounce: 0 kB
WritebackTmp: 0 kB
CommitLimit: 3382928 kB
Committed_AS: 2477200 kB
VmallocTotal: 122880 kB
Es sind non ca. 260 MB frei, ein wenig ist geswapt; IMHO nichts
Ungewöhnliches.
Der RAM hat im Minimum noch ca. 80 MB frei, wobei mir die große Schwankung
über kurze Zeiträume auffällt; hier folgende Werte innerhalb 20 Minuten:
MemFree: 3873364 kB
MemFree: 183348 kB
MemFree: 82764 kB
MemFree: 1862152 kB
Beim Minimalstand geht kurzzeitig die Last auch auf 1,75 hoch, stabilisiert
sich aber beim nächsten Monitoring fünf Minuten später.
--
Gruss Marcus
Mehr Informationen über die Mailingliste Eisfair