Fakultät für Mathematik und Naturwissenschaften

JEM (der Job Execution Monitor) ist ein im User-Space1 laufendes Job Monitoring-System2. Es bietet einen detaillierten Einblick in den Ablauf eines Grid-Jobs noch während seiner Ausführung und erlaubt so eine Echtzeit-Fehleranalyse und damit eine Verbesserung der Ressourcen-Ausnutzung im Grid-Umfeld.


JEM besteht aus folgenden, grundlegenden Teilen:

  • Ein System-Monitor, der parallel zum User-Job auf dem Worker-Node ausgeführt wird. Zur Laufzeit misst er System-Parameter wie die CPU-Last, eingehenden und ausgehenden Netzwerk-Traffic, den freien Arbeits- und Festplattenspeicher, etc.
  • Diverse Script-Monitore, die das Script bzw. die Anwendung analysieren, die den Job ausmacht, und sie (wenn möglich) überwacht zeilenweise ausführen. Während der Ausführung geben die Script-Monitore detailliertes Feedback über den derzeitigen Status des Scriptes zum User. Bei zahlreichen möglichen Fehler-Typen werden automatisch Debug-Informationen in Echtzeit bereitgestellt.

Desweiteren kann JEM mit der Hilfe eines GDB Plugins Backtraces erstellen, die dem User dann zu Verfügung stehen um Fehler im Programmablauf zu analysieren. Für sehr langlaufende Jobs biertet JEM die Möglichkeit die LogFiles des Jobs mit regulären Ausdrücken zu überwachen und auf entsprechende erkannte Muster zu reagieren. Zusätzlich kann JEM mit Hilfe des LogFileSavers die Log Files eines Jobs regelmäßig an den JEM Server übertragen und so verhindern, dass wertvolle Informationen verloren wenn der Job aufgrund seiner langen Laufzeit vom Batchsystem automatisch beendet wird.

Die gesammelten Daten werden über einen konfigurierbaren, sicheren Kommunikationskanal zum User übertragen. Außerdem besteht die Möglichkeit, ein ausführliches Log in die Output-Sandbox des Jobs zu schreiben. Die Daten (Echtzeitdaten und/oder das ausführliche Log) können anschließend auf verschiedene Arten und Weisen analysiert werden, zum Beispiel mit Event-Listen, Graphen und statistischen Auswertungen.

Für weitere Informationen, Dokumentation, Kontaktmöglichkeiten / Bug-Reporting sowie den Download von JEM besuchen Sie die Projektseite (derzeit nur in English verfügbar, Link öffnet in neuem Fenster/Tab):

Job Execution Monitor - Projektseite

1 Anwendungen im User-Space werden wie jede andere Benutzeranwendung in einem UNIX-System als Kind des init-Prozesses ausgeführt. Im Gegensatz dazu leben Anwendungen im Kernel-Space - wie der Name schon sagt - als Teil des (Linux-)Kernels.

2 Ein Job Monitoring-System im Grid-Kontext ist eine Software, die einen Grid-Job (Also einen ins Grid submittierten Rechenauftrag) überwacht.

zuletzt bearbeitet am: 27.05.2013

Weitere Infos über #UniWuppertal: