Auf der Suche nach dem Prozess-Killer

Kurzvortrag auf den Linuxwochen 2010

Seit längerem bekam ich auf einem bestimmten Server immer wieder Mails wie die folgende:

Date: Tue, 21 Sep 2010 21:46:01 +0200 (CEST)
From: Cron Daemon <root@wsr.ac.at>
To: hjp@wsr.ac.at
Subject: Cron <hjp@wotan2> ~/bin/get_samples; ~/bin/aggregate; ~/bin/expire
Return-Path: <hjp@wsr.ac.at>
Message-Id: <20100921194657.C88C5808A@wotan2.wsr.ac.at>

/bin/sh: line 1: 26880 Killed                  ~/bin/get_samples

Das war einigermaßen beunruhigend. Irgendwas killt da Cronjobs. Und dieses irgendwas läuft offensichtlich mit root-Rechten, sonst könnte es nicht Cronjobs verschiedener User killen.

Wie findet man sowas? Zunächst fiel mir auf, dass die gekillten Prozesse immer die gleiche PID (oder eine von wenigen PIDs hatten) und ein kleines Testprogramm, das einfach so lange forkt, bis es die richtige PID hat und dann darauf wartet, gekillt zu werden, zeigte, dass das das sehr häufig auftritt:

% ./findpid 26880
got pid 26880
1285245175.121462: child 26880 exited with status 0009
got pid 26880
1285245181.129473: child 26880 exited with status 0009
got pid 26880
1285245187.137956: child 26880 exited with status 0009
got pid 26880
1285245193.145998: child 26880 exited with status 0009

Ein Prozess mit der „richtigen“ PID lebt also jeweils nur wenige Sekunden. Da sollte sich der Killer doch finden lassen. Allerdings war ich zunächst wenig erfolgreich.

Mit dem Upgrade des Servers auf Debian Lenny (ja, gerade rechtzeitig vor dem Freeze für Squeeze :-)) bekam ich ein neues Werkzeug in die Hand:

Das Linux Auditing System

Eingeführt mit Kernel 2.6.20, kann das Linux Auditing System systemweit Systemcalls (gefiltert nach bestimmten Kriterien) aufzeichnen. Also für diesen Zweck genau das richtige.

Mehrere Leute im Publikum waren der Meinung, das Auditing System gäbe es schon länger. Auch ich habe vage in Erinnerung, dass es schon früher etwas ähnliches gab, bin mir aber ziemlich sicher, dass Debian Etch (Kernel 2.6.18) kein entsprechendes Tool hatte. Hinweise zur Historie werden gerne angenommen.

Außer der Kernel-Komponente besteht das Auditing System aus mehreren User-Space-Programmen:

auditd: Der auditd zeichnet die vom Kernel gemeldeten Events auf und schreibt sie in ein Logfile. Der auditd muss vor den zu auditierenden Prozessen gestartet werden. Ist das nicht möglich, gibt es auch einen Kernel-Parameter, der auditing bereits vor dem Start von init aktiviert.
auditctl: Mit diesem Tool können Filterkriterien festgelegt und Auditing auch ganz abgeschaltet bzw. (bis zum nächsten reboot) irreversibel aktiviert werden.
ausearch: Durchsucht die von auditd geschriebenen Logs und gibt die Records in einigermaßen menschenlesbarer Form aus.
aureport
: Fasst die Logs zu Reports zusammen.