GRID Computing
Softwareentwicklung
Job Execution Monitor
Der Job Execution Monitor (JEM)
JEM (der Job Execution Monitor) ist ein im User-Space1 laufendes Job Monitoring-System2. Es bietet einen detaillierten Einblick in den Ablauf eines Grid-Jobs noch während seiner Ausführung und erlaubt so eine Echtzeit-Fehleranalyse und damit eine Verbesserung der Ressourcen-Ausnutzung im Grid-Umfeld.
JEM besteht aus folgenden, grundlegenden Teilen:
- Ein System-Monitor, der parallel zum User-Job auf dem Worker-Node ausgeführt wird. Zur Laufzeit misst er System-Parameter wie die CPU-Last, eingehenden und ausgehenden Netzwerk-Traffic, den freien Arbeits- und Festplattenspeicher, etc.
- Diverse Script-Monitore, die das Script bzw. die Anwendung analysieren, die den Job ausmacht, und sie (wenn möglich) überwacht zeilenweise ausführen. Während der Ausführung geben die Script-Monitore detailliertes Feedback über den derzeitigen Status des Scriptes zum User. Bei zahlreichen möglichen Fehler-Typen werden automatisch Debug-Informationen in Echtzeit bereitgestellt.
Die gesammelten Daten werden über einen konfigurierbaren, sicheren Kommunikationskanal zum User übertragen. Außerdem besteht die Möglichkeit, ein ausführliches Log in die Output-Sandbox des Jobs zu schreiben. Die Daten (Echtzeitdaten und/oder das ausführliche Log) können anschließend auf verschiedene Arten und Weisen analysiert werden, zum Beispiel mittels Event-Listen, Graphen und statistischen Auswertungen.
Für weitere Informationen, Dokumentation, Kontaktmöglichkeiten / Bug-Reporting sowie den Download des JEM besuchen Sie die Projektseite (derzeit nur in English verfügbar, Link öffnet in neuem Fenster/Tab):
Job Execution Monitor - Projektseite
1 Anwendungen im User-Space werden wie jede andere Benutzeranwendung in einem UNIX-System als Kind des init-Prozesses ausgeführt. Im Gegensatz dazu leben Anwendungen im Kernel-Space - wie der Name schon sagt - als Teil des (Linux-)Kernels.
2 Ein Job Monitoring-System im Grid-Kontext ist eine Software, die einen Grid-Job (Also einen ins Grid submittierten Rechenauftrag) überwacht.
Aktualisiert (Donnerstag, 22. Juli 2010 um 13:16 Uhr)


