Sun N1 System Manager 1.3 Grid Engine プロビジョニングおよび監視マニュアル
この本のみを検索
この本を見る:
PDF 文書ファイルをダウンロードする (978 KB)

第 4 章 N1 Grid Engine の監視

この章では、グリッドのパフォーマンスのスナップショットを取得する方法、またクラスタキューや N1 Grid Engine のさまざまな種類の警告に関する詳細情報を表示する方法について説明します。これらの機能はすべて N1 Grid Engine 監視の GUI から使用できます。


注 –

N1GE を使用して実際にアプリケーションを管理するには、N1GE 自体のさまざまなツールやコマンドを使用します。たとえば、N1GE 監視 GUI を使用して、送信済みのジョブのステータスを表示することはできますが、この GUI からジョブを実際に送信することはできません。


グリッドのパフォーマンスの確認

グリッドの健全性を簡単に確認するには、「概要」タブを使用します。このタブには監視の「概要」ページが表示され、このページには、状態の概要、クラスタキューの情報、キュー、ホスト、およびジョブの警告の総計を示す 3 つの表があります。


注 –

このページの情報を最新にするには、再読み込みを行なってください。


図 4–1 N1 Grid Engine の「概要」ページ

状態の概要、クラスタキューの状態、すべての警告を示す「概要」ページ

「ステータスの概要」表

「ステータスの概要」表には、グリッド内で保留中、実行中、一時停止などの状態にあるジョブの合計数が表示されます。また、計算ホストあたりの平均負荷や、すべての計算ホストで使用および設置されているメモリーの合計容量も表示されます。

  • 実行中のジョブ – グリッド内で実行中のすべてのジョブの合計数です。

  • 保留中のジョブ – スケジューラによる振り分けを待っているジョブの数です。

  • 中断中のジョブ – 一時停止しているジョブの数です。

  • 有効なジョブ – 明示的に保留中にされているジョブの数です。

  • Requeued Jobs – 以前は実行されていたが、保留中に戻ったジョブの数です。

  • エラーがあるジョブ – 無効な要求などのエラー状態が原因で実行されなくなったジョブ、または一度も実行されなかったジョブの数です。

  • 平均負荷 – 実行中のすべてのジョブで使用されている CPU サイクル数を、グリッドで使用されている計算ホストの数で割った数です。

  • 総使用メモリー容量 – グリッド内で実行中のすべてのジョブで使用されているメモリーの合計容量です。

  • 総メモリー容量 – すべての計算ホストのメモリーの合計容量です。

  • 計算ホストの総数 – ジョブのタスクを実行できるホスト数です。

「クラスタキュー」表

実行中のジョブは、存続するかぎり、そのキューに関連付けられています。キューは、複数のホストに適用されるさまざまなジョブ実行パラメータを定義する方法です。N1GE のキューは、ジョブのクラスのコンテナ、または説明と考えることができます。複数の実行ホストにまたがるキューをクラスタキューとよぶことがあります。

「クラスタキュー」表は、グリッドで構成されているすべてのクラスタキューの状態の概要を示します。スロットは、全般的なパフォーマンスを示します。状態は、エラー状態になる可能性があるキューを示します。次のフィールドがあります。

  • クラスタキュー — キューの名前です。

  • 総スロット数 — このキューに構成されているスロットの合計数です。スロットは、キューで同時に実行できるジョブの最大数です。

  • 使用中 — キューで現在使用されているスロットの合計数です。キューでは、合計スロット数がすべて使用されているべきです。ただし、場合によっては、すべてのスロットを使用するのに必要な空きリソースが足りないこともあります。

  • アラーム存在する場合、その時点で、キュー構成の load_thresholds 一覧で定義されている負荷しきい値の 1 つ以上を超えていることを示します。この状態では、N1GE でこのキューに対してこれ以上ジョブのスケジュールは設定されません。詳細は、queue_conf(5) のマニュアルページを参照してください。

  • 無効 — キューまたはホストが手動または自動で無効にされたため、実行されていないスロットの数です。このキューに関連付けられているジョブはすべて無効になります。キューに対するこの状態の割り当てと解除には、qmod(1) コマンドを使用します。これらのスロットでは、新しいジョブは受け付けられませんが、実行中のジョブは続行されます。

  • 一時停止中 — キューまたはホストが手動または自動で一時停止されたため、実行されていないスロットの数です。これらのスロットに関連付けられているジョブはすべて一時停止され、これらのスロットで新しいジョブは受け付けられません。

  • エラー/未知 — このスロットの前のジョブで問題が発生したか、ホストに到達できないため、エラー状態にあるスロットの数です。

クラスタキューについては、『N1 Grid Engine 6 ユーザーズガイド』の「キューの監視と制御」と qmon のマニュアルページを参照してください。キューの状態については、「キューのアラート」を参照してください。

「アラート」表

「アラート」表では、グリッドで発生する可能性がある問題、または実際に発生している問題を一覧表示できます。これらのカテゴリで警告またはエラーが生成されるか、カテゴリが無効になったときにアラートが通知されます。カテゴリをクリックすると、そのカテゴリの「アラート」ページに、警告の詳細情報を示す表が表示されます。次のカテゴリがあります。

並べ替えとページの操作方法

項目は 10 行ずつ表示されます。表の下部にあるページ操作のコントロールを使用して、全一覧を表示できます。デフォルトでは、行はジョブ ID の順番に表示されますが、任意の列を使用して行の順序を変更できます。列のヘッダーをクリックすると、その列の値に従って行が並べ替えられます。列のヘッダーをもう一度クリックすると、逆の順序で並べ替えられます。ページ操作のボタンをクリックすると、並べ替えの設定はほかのページでも維持されます。