mdx利用手引き(利用者編)¶

お知らせ¶

メンテナンスの予定¶

【毎週金曜日 10:00～】ポータルのメンテナンス
2021/10/10掲載
当面の間、mdx の各ポータルについて機能強化、不具合対応のため、毎週金曜日の 10:00 ～ 12:00 に必要に応じてメンテナンスを行うことがあります。
当該時間帯ではポータルの動作が不安定になる場合があります。ご迷惑をおかけしますが、ご協力お願いいたします。

未実装の機能について¶

2021年9月22日現在、未実装の機能は以下の機能です。

権限プロファイル(mdx管理者、機関管理者の権限を詳細に制御する機能のため、運用方針と密な関係にあるため運用方針を含め仕様策定中)
その他、UI/UX改善に向けた修正は随時行っております。

利用手引き¶

1. はじめに¶

本ドキュメントは、mdx利用者(プロジェクトユーザ)向けです。
mdxにおける仮想マシン作成、操作等、システムを利用するのに必要な情報を提供します。
管理者(mdx管理者および機関管理者)向けのドキュメントについては、mdx利用手引き(管理者編) (要認証)をご確認ください。

1.1. プロジェクト申請ポータルとユーザポータルについて¶

mdxでは、プロジェクト申請ポータルと、ユーザポータル 2つのポータルを利用者に提供します。

1.1.1. プロジェクト申請ポータルの機能¶

プロジェクト申請ポータルでは、主にプロジェクト申請関連作業およびポイント購入申請関連作業を行います。プロジェクト申請ポータルは、以下の機能を提供します。

プロジェクトの申請
プロジェクト申請状態の確認および修正
プロジェクト申請の取り消し
過去のプロジェクト申請を流用した再申請の実施
ポイント購入申請
ポイント購入履歴の確認および支払方法の編集
ポイント購入申請の取り消し
過去のポイント購入申請を流用した再申請の実施
ポイント購入を許可するユーザの追加
クレジットカードによるポイント購入決済

1.1.2. ユーザポータルの機能¶

ユーザポータルでは、主に仮想マシンの操作などを行います。ユーザポータルは、以下の機能を提供します。

プロジェクトに割り当てられた資源の利用状況の確認(ダッシュボード)
仮想マシンの作成(デプロイ)・削除
仮想マシンの操作
ISOイメージ管理・アップロード
ネットワーク管理
ストレージ管理
お知らせ・操作履歴
プロジェクト管理(プロジェクト情報確認、プロジェクトユーザ追加・削除)
プロジェクト権限プロファイル
申請の状況確認
ポイント利用状況の確認
問い合わせ

1.2. ポータルで利用するアカウントについて¶

ポータルは以下のアカウントで利用することができます。

学認アカウント：全国の大学等とNIIが連携して構築する学術認証フェデレーション(https://www.gakunin.jp/)
mdxローカルアカウント：学認のアカウントが無い場合のmdx専用アカウント

学認のアカウントが利用できない場合は、管理者と相談の上、mdxローカルアカウントを作成できます。
mdxローカルアカウントの発行についての詳細は ご利用の流れ をご確認ください。
各アカウントでポータルにログインする方法については ポータルへのログイン方法について をご確認ください。

1.3. ポータルの基本情報¶

1.3.1. ユーザポータルの画面構成について¶

ユーザポータルは役割によっていくつかのパーツで画面が構成されており、本ドキュメントではそれらのパーツを以下の図の呼称で定義します。

ユーザポータルで行う仮想マシンの操作や各種申請操作は、ヘッダー部に表示されたプロジェクトで行われます。

ヘッダー部の[プロジェクト名(機関名)]をクリックすると、操作するプロジェクトを切り替えることができます。

プロジェクトの切り替え画面で[プロジェクト名(機関名)]の右側に警告マーク(△に！マーク)が表示されているプロジェクトは停止もしくは期間終了しているプロジェクトです。

1.3.2. ポータルのタイムアウト時間¶

プロジェクト申請ポータル・ユーザポータル共に3時間以上無操作だった場合、ログインセッションを切断します。再度ログインしてください。

1.4. mdxにおける資源の単位について¶

1.4.1. データ単位¶

mdxではメモリや仮想ディスク、ストレージの容量を2のべき乗で計算した数値で表示しています。

正確には2のべき乗で計算した数値を表すには2進接頭辞を用いた単位(KiB/MiB/GiBなど)が標準利用されますが、

mdxでは一般的によく見られるSI接頭辞を用いた単位(KB/MB/GBなど)を利用して表示しています。

例.
1[MiB] = 1024[KiB]
　→ mdxでは 1[MiB] を 1[MB] と表示
1[GiB] = 1024[MiB]
　→ mdxでは 1[GiB] を 1[GB] と表示

1.4.2. CPUパック・GPUパックについて¶

mdxではCPU・GPU資源の利用単位としてCPUパック・GPUパックという単位を使用します。

CPUパックは仮想CPU数と仮想メモリがセットになったもの、GPUパックは更にGPUがセットになったものです。

1CPUパックおよび1GPUパックで利用できる資源量は以下の通りです。

名称	仮想CPU数	仮想メモリ量	GPU数
CPUパック	1	1548MB(約1.51GB)	0
GPUパック	18	約57.60GB	1

1.5. mdxポイントの基本情報¶

1.5.1. mdxポイントについて¶

mdxを利用する際には、mdxポイント(以後、ポイント)をご購入いただく必要があります。

ポイントに関する基本的な考え方につきましては、こちらをご確認ください。

1.5.2. ポイントの消費について¶

ポイントは資源種別によって一時間毎または一日毎にプロジェクトの保有ポイントから消費されます（消費タイミングは消費ポイント一覧参照）。

そのときの消費ポイントは資源種別によって2種類の計算方法で求められます。

起動保証仮想マシン用予約分の計算資源およびストレージ資源（定額制）
- プロジェクトへの割り当て資源量に対して消費ポイントを算出する
- ポイントの消費タイミングで、資源種別ごとの単位時間内での割り当て資源量の最大値を用いて算出する
  
  なお、資源量の変動はプロジェクト編集などにより発生する
  - 例：24時に消費ポイントの算出がされるとして、仮想ディスクの割り当て資源量が
    
    その日の16時に100GBから200GBに変動した場合、24時時点での消費ポイントは
    
    200GBを割り当て資源量として算出する
起動保証/スポット仮想マシン起動分の計算資源（従量制）
- 起動している仮想マシンの使用資源量と起動時間に対して消費ポイントを算出する
- 起動時間が単位時間に満たない場合もその時間に応じてポイントが算出・消費される

プロジェクトの消費ポイント量は各資源ごとの計算方式により算出されたポイントの合計となります。

以下にプロジェクトの一例と一日の消費ポイント量の合計について示します。

プロジェクト例
- 割り当て量
  - CPUパック：10、GPUパック1、仮想ディスク：100G、高速：100G、大容量：100G
- 仮想マシン使用実績
  - 仮想マシンA: 2CPUパック10時間
  - 仮想マシンB: 1GPUパック5時間
一日の消費ポイント量合計：1510ポイント

注釈

資源に対する消費ポイントは年度毎に決められており、以下の計算は2023年度の値を元に計算
- 起動保証仮想マシン用予約分の計算資源およびストレージ資源：1256ポイント
  - CPUパック：10パック×0.2ポイント×24時間＝48ポイント
  - GPUパック：1パック×50ポイント×24時間＝1200ポイント
  - 仮想ディスク：100G×0.03ポイント＝3ポイント
  - 高速ストレージ：100G×0.03ポイント＝3ポイント
  - 大容量ストレージ：100G×0.02ポイント＝2ポイント
- 起動保証/スポット仮想マシン起動分の計算資源：254ポイント
  - CPUパック：2パック×0.2ポイント×10時間＝4ポイント
  - GPUパック：1パック×50ポイント×5時間＝250ポイント

2. 利用の流れ (quick start)¶

2.1. プロジェクトの申請をする¶

mdxの利用を開始するためには、利用する目的や利用期間、各担当者の情報を入力・申請(プロジェクト申請)する必要があります。
プロジェクト申請はプロジェクト申請ポータルにログインして実施します。
- プロジェクト申請ポータルへのログイン方法はこちらをご確認ください。
[プロジェクトの申請/ Project Application]から必要事項を記入し申請してください。
申請した機関の機関管理者が承認するのを待ちます。
- 申請状態は、プロジェクト申請ポータルで確認することができます。
手順の詳細は、こちらをご確認ください。

2.2. プロジェクト利用のためのポイント購入を申請する¶

mdxの資源を利用するために、プロジェクト申請ポータルでポイントの購入申請を行います。購入申請はプロジェクトが承認後に利用可能となります。
ポイントの購入におけるお支払い方法に関してはお支払方法および支払予算をご確認ください。
[ポイントを購入する/ Buy Points]から資源を利用するプロジェクトの[購入する/ Purchase]を選択して、必要事項を記入し申請してください。
mdx管理者が承認するのを待ちます。
申請状態は、プロジェクト申請ポータルで確認することができます。
手順の詳細は、こちらをご確認ください。

2.3. プロジェクトで利用する資源を申請する¶

プロジェクトで利用するmdxの資源の申請を行います。
資源の申請はユーザポータルにログインして実施します。
- ユーザポータルへのログイン方法はこちらをご確認ください。
[プロジェクト編集申請]から必要な資源量を記入し申請してください。
申請した機関の機関管理者が承認するのを待ちます。
- 申請状態は、ユーザポータルで確認することができます。
手順の詳細は、こちらをご確認ください。

2.4. 仮想マシンを作成・起動する¶

仮想マシンの操作はすべてユーザポータルで行います。
仮想マシンは、仮想マシンテンプレート、もしくはisoイメージから作成できます。仮想マシンテンプレートを利用することでシステム共通の設定を省略することができます。
- 仮想マシンテンプレートを使用した場合、リモートからアクセスするための公開鍵が必要になります。ご自身で準備してください。
仮想マシン作成後、作成した仮想マシンを起動します。
仮想マシンの状態等は、ユーザポータルで確認することができます。
手順の詳細は、こちらをご確認ください。

2.5. ネットワークの設定をする¶

作成した仮想マシンはデフォルトでは外部からアクセスできません。外部(Internet)からの通信は安全のためすべて遮断されています。
ユーザポータルにて、DNATおよび、ACLの設定をします。
ネットワークの設定は、利用者の責任にて行ってください。
- 設定を誤ると、仮想マシンが攻撃対象となり重大なセキュリティインシデントが発生する場合があります。ご注意ください。
設定の際に必要な情報である仮想マシンのローカルIPアドレスは、ユーザポータルの「仮想マシン」ページのサービスネットワーク項目にてご確認ください。
手順の詳細は、こちらをご確認ください。

2.6. 仮想マシンを利用する¶

ご自身の端末から、設定したグローバルIPアドレスに、登録したキーペアの秘密鍵を使ってアクセスして、仮想マシンを利用します。

3. ポータルへのログイン方法について¶

このページでは、各ポータルでの学認およびmdxローカルアカウントを利用したログイン方法について説明します。

3.1. 学認アカウントを利用したログイン方法¶

各ポータルログインページの[学術認証フェデレーション「学認(GakuNin)」でログイン]のメニューにあるプルダウン(下向き矢印のアイコン)から

所属する機関を選択した状態で[選択]をクリックします。
- プロジェクト申請ポータル
- ユーザポータル
所属する機関ごとに用意された所定の認証処理を実施します。
本サービスにユーザ情報を送信することを同意するか確認するための画面が表示されます。

内容を確認のうえ同意方法を選択して[同意]をクリックします。
メールによる本人確認を行います。メールアドレスのドメインの末尾が「*.ac.jp」, 「*.go.jp」のいずれかであり、かつ自身が受け取り可能なメールアドレスを入力して[Send Token]をクリックします。
- メールによる本人確認の結果は実施から30日間保持されます。30日間を過ぎますと、再度本人確認が必要となります。
- 所属機関によっては手順3のあとに本画面が表示されず、手順6のポータルTOP画面が表示される場合があります。その場合は手順4, 5をスキップしてください。
入力したメールアドレスに対して認証用メールが送信されますので以下のいずれかの対応を行います。
- 受信したメールに記載された[Token]の文字列をコピーしポータルの[Token]入力欄に貼り付け[Verify Token]をクリックします。
- 受信したメールに記載されたURLをクリックします。
認証が完了し以下のポータルのTOP画面が表示されれば、ログイン完了となります。
- プロジェクト申請ポータル
- ユーザポータル

3.2. mdxローカルアカウントを利用したログイン方法¶

mdxローカルアカウントでログインする場合には、二要素認証の利用が必要です。

スマートフォン、PCから二要素認証を利用する方法は3.4項にて説明します。

各ポータルログインページの[学認アカウントをお持ちでない方 (mdxローカル認証でログイン)]のメニューにあるmdx認証用ログインボタンをクリックします。
- プロジェクト申請ポータル：[mdxローカル認証/ mdx Local Login]より
- ユーザポータル：[MDXローカル認証]より
mdxローカルアカウントのユーザ名とパスワードを入力して、[Login]をクリックします。
続いて二要素認証のサービスを利用して認証を行います。
- 初めて認証を行う場合には[Token code]欄に任意の6桁の数字を入力して[Login]をクリックし、次の手順に進みます。
- 2回目以降の認証の場合には二要素認証のサービス上でmdxのアカウントに表示される6桁の数字を[Token code]欄に入力して[Login]をクリックして、手順8に進みます。
[Register a new Token]をクリックします。
表示されたQRコードを二要素認証サービスから読み取るか、[manually enter code]部に表示される16桁のコードを二要素認証サービス上で入力します。

二要素認証サービスにmdxのアカウントが登録され、それに紐づく6桁の数字が表示されるので、その数字を[Token code]に入力して[Register]をクリックします。
再度トークンを入力する画面が表示されますので、二要素認証サービスで生成された6桁の数字を[Token code]に入力して[Login]をクリックします。
mdxのサービスにユーザ情報を送信することを同意するか確認するための画面が表示されます。内容を確認のうえ同意方法を選択して[同意]をクリックします。
ポータルのTOPページが表示されれば認証は完了です。

3.2.1. mdxローカルアカウントのパスワード変更方法¶

mdxローカルアカウントを利用している場合はユーザポータルからログイン時のパスワードを変更することができます。

画面右上ヘッダー部のユーザ名の部分をクリックします。
表示された選択肢から[パスワード変更]をクリックします。
現在のパスワードと新しいパスワードを入力します。
入力したら[保存]をクリックすれば、パスワードの変更は完了です。

3.3. ポータルからのログアウト方法¶

各ポータルからログアウトする方法は以下の通りです。

プロジェクト申請ポータル：画面右上のログアウトボタンをクリックします。
ユーザポータル：
1. 画面右上ヘッダー部のユーザ名の部分をクリックします。
2. 表示された選択肢から[ログアウト]をクリックします。

3.4. 二要素認証について¶

mdxローカルアカウントのログインにはワンタイムパスワードによる二要素認証(TOTP認証)を利用します。
mdxローカルアカウントのIDとパスワードによる認証に加えて、ポータルにアクセスするために使っている
デバイスとは別のデバイス、例えばスマートフォンで発行したワンタイムパスワードを利用することで、
本人確認を確実に行いセキュリティの強度を高めています。
ワンタイムパスワードを発行するサービスはどのサービスを使っていただいても問題ありません。
既にmdx以外のサービスでワンタイムパスワード発行サービスをご利用の方は、そのサービスをご利用ください。
ここでは、初めてワンタイムパスワード発行サービスをご利用になる方向けに、一例を紹介します。

3.4.1. スマートフォンの場合¶

Google PlayストアやApp Storeなど各種ストアから二要素認証用のアプリケーションをインストールして利用できます。
Google認証システム、 Microsoft Authenticatorなどがあります。
アプリをインストールしたら、 mdxローカルアカウントを利用したログイン方法 に従ってアプリが利用できるようにしてください。

3.4.2. PCの場合¶

スマートフォンが利用できない場合など、PCでもワンタイムパスワードを発行することが可能です。
ただし、ポータルにアクセスしているPCと同じPCでワンタイムパスワードを発行すると、PC盗難・紛失や乗っ取られた場合、
二要素認証も突破されてしまうのでご注意ください。

Google Chromeブラウザの拡張機能やAuthy(URL: https://authy.com/ )などのアプリケーションを利用できます。

本マニュアルではGoogle Chromeブラウザの拡張機能である認証プラグインの利用方法を説明します。

Google ChromeブラウザからこちらのURLにアクセスします。
[Chromeに追加]をクリックします。
ポップアップウインドウが出たら[拡張機能を追加]をクリックするとプラグインの追加は完了です。
二要素認証を利用する場合は、二要素認証用のQRコードが表示されている画面で

Google Chromeブラウザのメニューバーから拡張機能ボタン(パズルのピースのようなボタン)をクリックします。
表示されたプラグインから[認証]をクリックします。このとき利用許可を確認するポップアップが表示された場合は[許可]をクリックします。
認証プラグインのウインドウが表示されますので、右上のスキャンボタンをクリックします。
画面が白みがかってスキャン方法のチュートリアルが表示されます。

表示内容にしたがって今回認証を行うページに表示されているQRコードをマウスカーソルでドラッグしながら囲みます。
QRコードが確認できたら画面上部にポップアップでアカウント追加されたことが通知されます。以上でアカウントの追加は完了です。
再度メニューバーのプラグインから認証のプラグインを起動すると、追加されたアカウント名とワンタイムパスワードが表示されます。

表示されたワンタイムパスワードを認証を行うページの入力欄に入力すると認証処理を進めることができます。

4. プロジェクト申請の流れ¶

プロジェクトの申請はプロジェクト申請ポータルから行います。

また、プロジェクトの申請が承認された後のプロジェクトに対する操作はユーザポータルから実施します。

4.1. プロジェクトの申請を行う¶

プロジェクト申請ポータルにログインします。
画面左上にある[プロジェクトの申請/ Project Application]をクリックします。
プロジェクト申請に必要な項目を入力します。
- [必須/ required]と記載のある項目は必ず入力してください。
- [詳細/ detail]をクリックすると項目ごとの説明を参照できます。
- 入力項目の内容についてはプロジェクトの申請内容詳細を参照してください。
入力が完了したら申請画面最下部の[申請/ Apply]をクリックします。
- もし入力内容に不備がある場合は申請ボタンの上にエラーメッセージが表示されます。
  
  また、不備がある項目名が赤色で表示されますので、修正のうえ再度[申請/ Apply]をクリックしてください。
プロジェクト申請一覧画面に戻ると、申請したプロジェクトのステータスが[申請中/ applied]で表示されます。

以上でプロジェクト申請処理は完了です。

プロジェクトが承認されると、そのプロジェクトのユーザとしてユーザポータルへのログインが可能となります。プロジェクトの申請は以下のような方法でも申請ができます。

4.1.1. プロジェクトの申請を取り下げて内容の修正・再申請を行う¶

プロジェクトの取戻機能により取り下げを行った後、修正機能を利用することで再申請を行うことができます。

4.1.2. 過去のプロジェクト申請を流用して申請を行う¶

プロジェクトの複写機能を利用し、却下されたプロジェクトや承認済みのプロジェクトの申請内容を流用および一部修正をして申請を行うことができます。

その他のプロジェクト申請に関連した機能の詳細に関してはこちらをご確認ください。

4.2. プロジェクトにユーザを追加する¶

承認後のプロジェクトに共同でプロジェクトを運営するユーザを追加します。作業はユーザポータル上で行います。

ユーザポータルにログインします。
上部メニューから[プロジェクト]をクリックします。
サイドメニューから[ユーザ]をクリックします。
メイン画面リスト上部の[+プロジェクトユーザ]をクリックします。
必要な情報を入力して、完了したら[追加]をクリックします。
- 認証基盤：ユーザが利用しているアカウントを学認、もしくはmdxローカルアカウント(mdx認証基盤)のいずれかで指定します。
- 学認IDもしくはmdx独自ID：追加するユーザのIDを入力してください。(mdxでは、各IdPが提供するeduPersonPrincipalNameをIDとしています)
  
  追加するユーザのIDは、追加するユーザご自身で調べていただく必要があります。
  
  追加するユーザご自身に、申請ポータルにログインいただき、右上に表示されるIDを確認するようお伝えください。
  
  追加するユーザがmdxローカルアカウント(mdx認証基盤)をご利用の場合は、@mdx.jpの@以前の文字列を入力してください。
- メールアドレス：ユーザの連絡先メールアドレス

これでユーザの追加は完了です。

その他の機能はプロジェクトに所属するユーザの確認と変更を行うをご確認ください。

注：mdxローカルアカウントを利用する場合にはmdx管理者により同IDのアカウントが既にmdxのシステムに登録されている必要があります

5. ポイント購入申請の流れ¶

ポイント購入申請は、プロジェクトの承認後、プロジェクトの申請者もしくは申請者からポイント購入申請を行うことを許可されたユーザがプロジェクト申請ポータルから行います。

いずれかのプロジェクトでポイント購入が可能なユーザが申請ポータルにログインした場合、利用したい機能を選択する画面が表示されます。

5.1. ポイント購入申請を行う¶

いずれかの操作によりポイントを購入するプロジェクトの一覧画面に移動します。
- 利用する機能を選択する画面で「ポイントを購入する / Buy Points」右の[移動する/ Move to]をクリックします。
- 「プロジェクト申請一覧/ Project Application List」の画面で[ポイントを購入する / Buy Points]をクリックします。
ポイントを購入するプロジェクトのアクションの[購入する/ Purchase]をクリックします。
ポイント購入申請に必要な項目を入力します。
- [必須/ required]と記載のある項目は必ず入力してください。
- ポイント購入申請の入力項目の詳細はポイント購入申請内容詳細を参照してください。
入力が完了したら申請画面最下部の左にある[申請内容を確認する/ Confirm the application]をクリックします。
- もし、入力内容に不備がある場合は申請ボタンの上に申請ボタンの上にエラーメッセージが表示されます。
  
  また、不備がある項目名が赤色で表示されますので、修正のうえ再度[申請内容を確認する/ Confirm the application]をクリックしてください。
ポイント購入申請の内容を確認して、問題が無ければ[ポイントの購入を申請する/ Apply to purchase points]をクリックしてください。
ポイント購入履歴画面にて、申請したポイント購入申請のステータスが[申請中]で表示されます。

以上でポイント購入申請処理は完了です。

ポイント購入申請は以下のような方法でもできます。

5.1.1. ポイント購入申請を取り下げて内容の修正・再申請を行う¶

ポイント購入履歴から申請の取り下げを行った後、保存された申請を復元することで再度申請を行うことができます。

5.1.2. 過去のポイント購入申請を複製して申請を行う¶

ポイント購入履歴から承認済の過去のポイント購入申請の内容を複製して、一部内容を修正のうえ申請を行うことができます。

5.2. ポイント購入可能なユーザを追加する¶

プロジェクトに対してポイント購入を許可するユーザは新規プロジェクト申請時に指定可能なほか、
プロジェクトの申請者により既存のプロジェクトに後から追加することも可能です。
詳細は ポイント購入を許可するユーザの操作 を参照してください。

5.3. 購入ポイントの決済処理を行う(クレジットカード決済のみ)¶

いずれかの操作によりポイント購入履歴の画面に移動します。
- 利用する機能を選択する画面で「ポイントの購入履歴を見る/ Confirm point purchase history」右の[移動する/ Move to]をクリックします。
- 「プロジェクト申請一覧/ Project Application List」の画面で[ポイントの購入履歴を見る/ Confirm point purchase history]をクリックします。
決済処理を行うポイント購入申請の行の[決済情報入力/ Enter payment info]をクリックします。
ポイント決済画面に遷移するため、ご利用内容を確認して、問題が無ければ、クレジットカード決済申し込みフォームに必要情報を入力します。
入力画面の下部の[お申し込み内容確認]をクリックします。

6. 資源の申請の流れ¶

プロジェクトで利用する資源の申請はユーザポータルから行います。

プロジェクトでは、ここで申請した資源量の範囲で、仮想マシンを運用します( スポット仮想マシン利用の場合、計算資源の申請は不要)。

6.1. 資源申請を行う¶

ユーザポータルにログインします。
上部メニューから[プロジェクト]をクリックします。

メイン画面リスト上部の[プロジェクト編集申請]をクリックします。
必要な情報を入力して、完了したら[申請]をクリックします。
- 資源量の詳細
- 本申請にてプロジェクト期間の終了日についても変更が可能です。

これで資源量の申請は完了です。申請が承認されれば現在のプロジェクトに申請した資源が割り当てられます。
ただし、申請した資源量が不足している場合には、申請量の一部、もしくは割り当てられない場合があります。詳しくは 資源再配分機能 のページをご確認ください。
資源量を変更したい場合には、再度プロジェクト編集申請を行うことで変更が可能です。

その他プロジェクト関連の確認・変更に関する機能はプロジェクトの確認と変更に関する機能のページをご確認ください。

6.2. 資源申請の状況を確認する¶

申請が承認されたかどうかはユーザポータル内申請一覧から確認できます。

7. 仮想マシン利用の流れ¶

仮想マシンに関する操作はすべてユーザポータルから実施します。

7.1. 資源量の確認¶

仮想マシンを作成するためには、作成する仮想マシン分の資源が残っている必要があります。ダッシュボード画面にて、仮想マシンの電源状態や、資源割当状況などが確認できます。

ダッシュボード

ユーザポータルにログインするとはじめにダッシュボードの画面が表示されます。

7.2. 仮想マシンの作成と起動¶

仮想マシンを仮想マシンテンプレート、もしくはご自身で用意いただいたISO形式のマシンイメージから作成および起動までの手順を説明します。

7.2.1. 仮想マシンテンプレートを利用して、仮想マシンを作成する¶

上部メニューから[仮想マシン]をクリックします。
サイドメニューから[デプロイ]をクリックします。

表示された仮想マシンのテンプレート一覧から、OS名・バージョンが定義された任意のテンプレートを選択し

リスト上部の[デプロイ]をクリックします。

テンプレート毎に「最低メモリ量 (GB)」と「最低仮想ディスク容量 (GB)」が定義されていますので、ご確認のうえ次の手順にお進みください。

※メモリ量とCPU/GPUパック数との関係は CPUパック・GPUパックについてを参照ください。

ハードウェアのカスタマイズ画面にて必要事項を入力します。入力が完了したら[デプロイ]をクリックします。
- 詳細はデプロイ時の設定項目をご確認ください。
- 仮想マシンへのログイン時に必要となりますので表示された[ログインユーザ名]を手元に控えておいてください。

画面上部にリクエストを受け付けた旨のメッセージが表示されます。
- リクエストの完了までには環境に応じて数分を要します。
- リクエストの進捗状況につきましてはメッセージに記載の[操作履歴]画面へのリンクより確認が可能です。
- リクエストの受付に失敗した旨のエラーメッセージが表示された場合には、機関の管理者までお問い合わせください。

操作履歴画面にて自身の行った操作の結果をステータス欄で確認します。
- [Completed]の場合は、次の手順に進みます。
- [Failed]の場合は、項目左の[>]をクリックすることで失敗の詳細を確認することができます。

上部メニューから[仮想マシン]をクリックして仮想マシンのコントロール画面に戻ります。
メイン画面に仮想マシンの一覧が表示されますので、一覧から今作成した仮想マシンを検索・選択します。
([デプロイ後に起動する]を選択していない場合)リスト上部の[ACTION]から、[電源] > [起動]の順でクリックし、確認メッセージで[はい]をクリックします。

仮想マシンの起動状態を以下で確認します。

リスト上部の[CONSOLE]をクリックすると、ブラウザの別のタブでコンソール画面が表示されますので

仮想マシンの起動状況を確認することができます。

コンソール画面にユーザログイン画面が表示されることを確認します。

コンソール画面で仮想マシンが起動後に、ユーザポータル側で画面右側のサマリにて

仮想マシンのIPアドレス(サービスネットワーク)が取得できていることを確認します。

上記が確認できましたら以上で起動処理は完了となります。

7.2.2. ISOイメージを指定して、仮想マシンを作成し、OSをインストールする¶

上部メニューから[仮想マシン]をクリックします。
サイドメニューから[ISOイメージ]をクリックします。

表示されたISOイメージの一覧に利用したいISOイメージがアップロードされているかを確認します。

アップロードされていない場合にはリスト上部[UPLOAD]をクリックします。

[参照]からアップロードしたいISOイメージを選択し、[アップロード]をクリックします。

アップロードの進捗は操作履歴画面から確認できます。

注釈

本システムではEFI(UEFI)対応のISOイメージのみサポートしています。

EFIに対応していないISOイメージは認識されませんのでご注意ください。

アップロードが完了したらサイドメニューから[デプロイ]をクリックします。

表示された仮想マシンのテンプレート一覧から、"ISO_image"を選択しリスト上部の[デプロイ]をクリックします。
ハードウェアのカスタマイズ画面にて必要事項を入力します。入力する項目の詳細はデプロイ時の設定項目をご確認ください。

必要事項の入力が完了したら[次へ]をクリックします。
ゲストOSの選択画面にて必要事項を入力します。入力する項目の詳細はデプロイ時の設定項目をご確認ください。
- 任意のOSバージョンが選択できない場合には、テンプレートのハードウェアバージョンが影響している可能性があります。その際には機関管理者までお問い合わせください。

必要事項の入力が完了したら[デプロイ]をクリックします。デプロイの進捗は操作履歴画面から確認できます。
デプロイが完了したら、上部メニューから[仮想マシン]をクリックしてコントロール画面に移動します。
仮想マシンのリストから、デプロイした仮想マシンを選択した状態で、リスト上部の[MOUNT]をクリックします。
プルダウンメニューから仮想マシンにインストールするISOイメージファイルを選択して[はい]をクリックします。

リスト上部の[ACTION]から、[電源] > [起動]の順でクリックし、確認メッセージで[はい]をクリックします。
リスト上部の[CONSOLE]をクリックし、ブラウザの別のタブにコンソール画面を表示させます。
コンソール画面からOSごとにインストール処理を行います。
インストールが完了後、ユーザポータル側で画面右側のサマリにて仮想マシンのIPアドレス(サービスネットワーク)が取得できていることを確認します。
上記が確認できましたら以上で起動処理は完了となります。

7.3. 仮想マシンにアクセスするネットワークの情報を設定する¶

仮想マシンにアクセスするためには、仮想マシンにアクセスするネットワークについて設定を行う必要があります。

7.3.1. ACL(アクセスコントロールリスト)の設定¶

外部(Internet)からの通信は初期状態では、全て遮断状態です。許可したい通信のみ設定するようお願いします。
ACL設定はセキュリティに関わる重要な設定項目です。各利用者のセキュリティ管理は利用者の自己責任となります。
設定の影響を理解した上で十分ご注意の上設定いただくようお願いします。

詳細は ACLの設定方法をご確認ください。

7.3.2. DNAT(デスティネーションNAT)の設定¶

プロジェクトに割り当てられたグローバルIPv4アドレスへの通信を、仮想マシンについたプライベートIPv4アドレスに転送し、
プロジェクト外部(インターネットなど)と仮想マシンが直接通信できるようにします。
本設定と合わせて、転送先アドレスへの通信を許可する設定をACLのページで行う必要がありますのでご注意ください。

詳細は DNATの設定方法をご確認ください。

7.4. 仮想マシンにアクセスする¶

デプロイ時に設定されていたログインユーザ名およびデプロイ時に入力した公開鍵とペアになる秘密鍵を用いて仮想マシンにログインします。

アクセス時は自身のターミナルから仮想マシンのアドレスにsshで接続します。

7.4.1. 他のメンバが管理する仮想マシンにアクセスする場合¶

仮想マシンの作成者に問い合わせて、アクセスに必要な情報を入手してください。
利用形態によって必要な情報は異なります。詳細はプロジェクト管理者にご確認ください。
一般的には以下のような情報が必要です。

仮想マシンのグローバルIPアドレス
ユーザ名
公開鍵認証でない場合、パスワード

7.5. 高速内部ストレージ、大容量ストレージをマウントする¶

仮想マシンテンプレートでは、lustreクライアントを設定することで、高速内部ストレージは「/fast」、大容量ストレージは「/large」からアクセスして利用可能です。
一方、仮想マシンをISOイメージから作成した場合や、Lustreがインストールされていない仮想マシンテンプレートを利用した場合に、
高速内部ストレージ、大容量ストレージを利用するためには、lustreクライアントソフトウェアのインストールと設定が必要です。
本項ではlustreクライアントによるファイルシステムの設定方法を記載します。

7.5.1. Ubuntu20.04, Ubuntu22.04 仮想マシンテンプレートの場合¶

OFED ドライバのインストール

インストール済みのため、必要ありません。
Lustre Client のインストール

インストール済みのため、必要ありません。
Lustre Client の設定

/etc/lnet.conf.ddn の設置と修正
/etc/lnet.conf.ddn.j2 の名称を/etc/lnet.conf.ddn に変更します。
$ sudo mv /etc/lnet.conf.ddn.j2 /etc/lnet.conf.ddn
設定ファイルを修正します。

修正箇所は「- net type: o2ib10」と「- net type: tcp10」のブロック内の、nid のIP アドレスとinterfaces のデバイス名です。

{{ ib_src_ipaddr }}、{{ tcp_src_ipaddr }} を「ストレージネットワーク1」のIPv4アドレスに置換します。

{{ ib_netif }}、{{ tcp_netif }} を「ストレージネットワーク1」のネットワークインタフェース（ens*）に置換します。

「ストレージネットワーク1」のインタフェースのデバイス名の確認方法は、仮想マシンにてターミナルを開き、「ip -br addr」コマンドを実行いただくことで確認可能です。

上記コマンドの出力結果のうち、「ストレージネットワーク1」のIPアドレスが表示された行の1カラム目に出力している項目が、ネットワークインタフェース名になります。

例：「Storage Network 1」のIPアドレスが「10.134.82.79/21」であった場合。

以下の実行例では、「ens194」が「ストレージネットワーク1」のネットワークインタフェース名になります。
$ ip -br addr lo UNKNOWN 127.0.0.1/8 ::1/128 ens163 UP 10.aaa.bbb.ccc/21 2001:2f8:1041:223:9ba2:6ea9:3fd4:d289/64 fe80::d707:ca60:98a:cfb2/64 ens194 UP 10.134.82.79/21 fe80::698:e5e1:3574:f2e6/64
以下にIPアドレスが「10.134.82.79」、ネットワークインタフェース名が「ens194」の場合の変更例を記載します。

修正前：
- net type: o2ib10 local NI(s): - nid: {{ ib_src_ipaddr }}@o2ib10 status: up interfaces: 0: {{ ib_netif }} - net type: tcp10 local NI(s): - nid: {{ tcp_src_ipaddr }}@tcp10 status: up interfaces: 0: {{ tcp_netif }}
修正後：
- net type: o2ib10 local NI(s): - nid: 10.134.82.79@o2ib10 status: up interfaces: 0: ens194 - net type: tcp10 local NI(s): - nid: 10.134.82.79@tcp10 status: up interfaces: 0: ens194

/etc/fstab を修正

ストレージネットワークのタイプを「PortGroup」を選択した場合はlustre (tcp)の2行、「SR-IOV」を選択した場合はlustre (rdma)の2行のコメントアウトを解除します。

以下にストレージネットワークのタイプ「SR-IOV」を選択した場合を記載します。

修正前：

# lustre (tcp)
#172.17.8.40@tcp10:172.17.8.41@tcp10:/fast      /fast           lustre  network=tcp10,flock,noauto,defaults 0 0
#172.17.8.56@tcp10:172.17.8.57@tcp10:/large     /large          lustre  network=tcp10,flock,noauto,defaults 0 0
# lustre (rdma)
#172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast    /fast           lustre  network=o2ib10,flock,noauto,defaults 0 0
#172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large   /large          lustre  network=o2ib10,flock,noauto,defaults 0 0

修正後：

# lustre (tcp)
#172.17.8.40@tcp10:172.17.8.41@tcp10:/fast      /fast           lustre  network=tcp10,flock,noauto,defaults 0 0
#172.17.8.56@tcp10:172.17.8.57@tcp10:/large     /large          lustre  network=tcp10,flock,noauto,defaults 0 0
# lustre (rdma)
172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast    /fast           lustre  network=o2ib10,flock,noauto,defaults 0 0
172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large   /large          lustre  network=o2ib10,flock,noauto,defaults 0 0

/etc/modprobe.d/lustre.conf を修正

この修正は、ストレージネットワークのタイプに「PortGroup」を選択した場合に修正必要になります。

ストレージネットワークのタイプに「SR-IOV」を選択した場合は、修正必要ありません。

修正前：
options lnet lnet_peer_discovery_disabled=1
options lnet lnet_transaction_timeout=100
# lustre (tcp)
#options ksocklnd rx_buffer_size=16777216
#options ksocklnd tx_buffer_size=16777216
修正後：(PortGroup利用時のみ修正)
options lnet lnet_peer_discovery_disabled=1
options lnet lnet_transaction_timeout=100
# lustre (tcp)
options ksocklnd rx_buffer_size=16777216
options ksocklnd tx_buffer_size=16777216

Lustreクライアントサービスの自動起動を設定し、仮想マシンを再起動します。
$ sudo systemctl enable lustre_client $ sudo reboot
再起動後、/large と /fast がlustreストレージとしてマウントされます。

7.5.2. 仮想マシンテンプレートを使用しない場合 (Rocky Linux 8)¶

OSは Rocky Linux release 8.10 (Rocky-8.10-x86_64-dvd1.iso: 公式ページなどから入手)を前提としています。

OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-23.10-3.2.2.0-rhel8.10-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
# mount -o ro,loop MLNX_OFED_LINUX-23.10-3.2.2.0-rhel8.10-x86_64.iso /mnt
# cd /mnt
# ./mlnxofedinstall --guest
```
OSに含まれるパッケージのうち、環境にインストールされていないものがある場合、OFEDのインストールに失敗することがあります。

その場合は、OSのISOイメージからそれらのパッケージをインストールしてください。

（インターネット公開された最新パッケージを適用しない）。
Lustre Client ソース・設定ファイルひな形入手

DDN 社が提供するLustre Client のソースプログラムファイルと、Lustre Client 用の各種設定ファイルのひな形をmdx 内からのみアクセス可能なWeb サーバから入手します。
- lustre-2.14.0_ddn149.tar.gz
- lustre_config_rocky_rdma.tgz（rdma を使用する場合）
- lustre_config_rocky_tcp.tgz（tcp を使用する場合）
```
# wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz
# wget http://172.16.2.26/lustre_config_rocky_rdma.tgz
# wget http://172.16.2.26/lustre_config_rocky_tcp.tgz
```

Lustre Client パッケージビルド

入手したソースプログラムを展開し、パッケージの構築を行います。

# dnf install gcc-gfortran libtool libmount-devel libyaml-devel json-c-devel rpm-build kernel-rpm-macros kernel-abi-whitelists
# tar zxf lustre-2.14.0_ddn149.tar.gz
# cd lustre-2.14.0_ddn149
# sh autogen.sh
# ./configure --with-linux=/usr/src/kernels/`uname -r` --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make rpms

Lustre Client のインストール

作成したパッケージの内、以下の2つのパッケージをインストールします。
```
# rpm -ivh kmod-lustre-client-2.14.0_ddn149-1.el8.x86_64.rpm lustre-client-2.14.0_ddn149-1.el8.x86_64.rpm
```
Lustre Client の設定

入手した設定ファイルのひな形を利用して、各種ファイルの修正・配備を行います。
- /etc/fstab
  
  /etc/fstab にLustre Filesystem のエントリを追加します。
  - SR-IOV を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast /fast lustre network=o2ib10,flock,noauto,defaults 0 0 172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large /large lustre network=o2ib10,flock,noauto,defaults 0 0
  - 通常の仮想NIC（VMXNET3）を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@tcp10:172.17.8.41@tcp10:/fast /fast lustre network=tcp10,flock,noauto,defaults 0 0 172.17.8.56@tcp10:172.17.8.57@tcp10:/large /large lustre network=tcp10,flock,noauto,defaults 0 0
- /etc/lnet.conf.ddn
  
  etc/lnet.conf.ddn を/etc/lnet.conf.ddn に複写し、自身の環境に合わせて修正します。
  
  修正箇所は「- net type: o2ib10」と「- net type: tcp10」のブロック内の、nid のIP アドレスとinterfaces のデバイス名です。
  
  「ストレージネットワーク1」のインタフェースのデバイス名の確認方法は、仮想マシンにてターミナルを開き、「ip -br addr」コマンドを実行いただくことで確認可能です。
  
  上記コマンドの出力結果のうち、「ストレージネットワーク1」のIPアドレスが表示された行の1カラム目に出力している項目が、ネットワークインタフェース名になります。
  
  例：「Storage Network 1」のIPアドレスが「10.134.82.79/21」であった場合。
  
  以下の実行例では、「ens194」が「ストレージネットワーク1」のネットワークインタフェース名になります。
```
$ ip -br addr
lo               UNKNOWN        127.0.0.1/8 ::1/128
ens163           UP             10.aaa.bbb.ccc/21 2001:2f8:1041:223:9ba2:6ea9:3fd4:d289/64 fe80::d707:ca60:98a:cfb2/64
ens194           UP             10.134.82.79/21 fe80::698:e5e1:3574:f2e6/64
```
  以下にIPアドレスが「10.134.82.79」、ネットワークインタフェース名が「ens194」の場合の変更例を記載します。
  
  修正前：
```
- net type: o2ib10
  local NI(s):
    - nid: 172.17.8.32@o2ib10
      status: up
      interfaces:
          0: enp59s0f0
- net type: tcp10
  local NI(s):
    - nid: 172.17.8.32@tcp10
      status: up
      interfaces:
          0: enp59s0f0
```
  修正後：
```
- net type: o2ib10
  local NI(s):
    - nid: 10.134.82.79@o2ib10
      status: up
      interfaces:
          0: ens194
- net type: tcp10
  local NI(s):
    - nid: 10.134.82.79@tcp10
      status: up
      interfaces:
          0: ens194
```
- /etc/sysconfig/lustre_client
  
  etc/sysconfig/lustre_client を/etc/sysconfig/lustre_client に複写します。
- /etc/modprobe.d/lustre.conf
  
  etc/modprobe.d/lustre.conf を/etc/modprobe.d/lustre.conf に複写します。
- /etc/init.d/lustre_client
  
  etc/init.d/lustre_client を/etc/init.d/lustre_client に複写します。
- /usr/lib/systemd/system/lustre_client.service
  
  usr/lib/systemd/system/lustre_client.service を/usr/lib/systemd/system/lustre_client.service に複写します。

Lustreクライアントサービスの自動起動を設定し、仮想マシンを再起動します。
$ sudo systemctl enable lustre_client $ sudo reboot
再起動後、/large と /fast がlustreストレージとしてマウントされます。

7.5.3. 仮想マシンテンプレートを使用しない場合 (Rocky Linux 9)¶

OSは Rocky Linux release 9.4 (Rocky-9.4-x86_64-dvd1.iso: 公式ページなどから入手)を前提としています。

OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-24.04-0.7.0.0-rhel9.4-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
# mount -o ro,loop MLNX_OFED_LINUX-24.04-0.7.0.0-rhel9.4-x86_64.iso /mnt
# cd /mnt
# ./mlnxofedinstall --guest
```
OSに含まれるパッケージのうち、環境にインストールされていないものがある場合、OFEDのインストールに失敗することがあります。

その場合は、OSのISOイメージからそれらのパッケージをインストールしてください。

（インターネット公開された最新パッケージを適用しない）。
Lustre Client ソース・設定ファイルひな形入手

DDN 社が提供するLustre Client のソースプログラムファイルと、Lustre Client 用の各種設定ファイルのひな形をmdx 内からのみアクセス可能なWeb サーバから入手します。
- lustre-2.14.0_ddn149.tar.gz
- lustre_config_rocky_rdma.tgz（rdma を使用する場合）
- lustre_config_rocky_tcp.tgz（tcp を使用する場合）
```
# wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz
# wget http://172.16.2.26/lustre_config_rocky_rdma.tgz
# wget http://172.16.2.26/lustre_config_rocky_tcp.tgz
```

Lustre Client パッケージビルド

入手したソースプログラムを展開し、パッケージの構築を行います。

# dnf install gcc-gfortran libtool keyutils-libs-devel libmount-devel libyaml-devel json-c-devel rpm-build kernel-abi-stablelists kernel-rpm-macros
# tar zxf lustre-2.14.0_ddn149.tar.gz
# cd lustre-2.14.0_ddn149
# sh autogen.sh
# ./configure --with-linux=/usr/src/kernels/`uname -r` --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make rpms

Lustre Client のインストール

作成したパッケージの内、以下の2つのパッケージをインストールします。
```
# rpm -ivh kmod-lustre-client-2.14.0_ddn149-1.el9.x86_64.rpm lustre-client-2.14.0_ddn149-1.el9.x86_64.rpm
```
Lustre Client の設定

入手した設定ファイルのひな形を利用して、各種ファイルの修正・配備を行います。
- /etc/fstab
  
  /etc/fstab にLustre Filesystem のエントリを追加します。
  - SR-IOV を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast /fast lustre network=o2ib10,flock,noauto,defaults 0 0 172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large /large lustre network=o2ib10,flock,noauto,defaults 0 0
  - 通常の仮想NIC（VMXNET3）を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@tcp10:172.17.8.41@tcp10:/fast /fast lustre network=tcp10,flock,noauto,defaults 0 0 172.17.8.56@tcp10:172.17.8.57@tcp10:/large /large lustre network=tcp10,flock,noauto,defaults 0 0
- /etc/lnet.conf.ddn
  
  etc/lnet.conf.ddn を/etc/lnet.conf.ddn に複写し、自身の環境に合わせて修正します。
  
  修正箇所は「- net type: o2ib10」と「- net type: tcp10」のブロック内の、nid のIP アドレスとinterfaces のデバイス名です。
  
  「ストレージネットワーク1」のインタフェースのデバイス名の確認方法は、仮想マシンにてターミナルを開き、「ip -br addr」コマンドを実行いただくことで確認可能です。
  
  上記コマンドの出力結果のうち、「ストレージネットワーク1」のIPアドレスが表示された行の1カラム目に出力している項目が、ネットワークインタフェース名になります。
  
  例：「Storage Network 1」のIPアドレスが「10.134.82.79/21」であった場合。
  
  以下の実行例では、「ens194」が「ストレージネットワーク1」のネットワークインタフェース名になります。
```
$ ip -br addr
lo               UNKNOWN        127.0.0.1/8 ::1/128
ens163           UP             10.aaa.bbb.ccc/21 2001:2f8:1041:223:9ba2:6ea9:3fd4:d289/64 fe80::d707:ca60:98a:cfb2/64
ens194           UP             10.134.82.79/21 fe80::698:e5e1:3574:f2e6/64
```
  以下にIPアドレスが「10.134.82.79」、ネットワークインタフェース名が「ens194」の場合の変更例を記載します。
  
  修正前：
```
- net type: o2ib10
  local NI(s):
    - nid: 172.17.8.32@o2ib10
      status: up
      interfaces:
          0: enp59s0f0
- net type: tcp10
  local NI(s):
    - nid: 172.17.8.32@tcp10
      status: up
      interfaces:
          0: enp59s0f0
```
  修正後：
```
- net type: o2ib10
  local NI(s):
    - nid: 10.134.82.79@o2ib10
      status: up
      interfaces:
          0: ens194
- net type: tcp10
  local NI(s):
    - nid: 10.134.82.79@tcp10
      status: up
      interfaces:
          0: ens194
```
- /etc/sysconfig/lustre_client
  
  etc/sysconfig/lustre_client を/etc/sysconfig/lustre_client に複写します。
- /etc/modprobe.d/lustre.conf
  
  etc/modprobe.d/lustre.conf を/etc/modprobe.d/lustre.conf に複写します。
- /etc/init.d/lustre_client
  
  etc/init.d/lustre_client を/etc/init.d/lustre_client に複写します。
- /usr/lib/systemd/system/lustre_client.service
  
  usr/lib/systemd/system/lustre_client.service を/usr/lib/systemd/system/lustre_client.service に複写します。

Lustreクライアントサービスの自動起動を設定し、仮想マシンを再起動します。
$ sudo systemctl enable lustre_client $ sudo reboot
再起動後、/large と /fast がlustreストレージとしてマウントされます。

7.5.4. 仮想マシンテンプレートを使用しない場合 (ubuntu20.04)¶

OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-5.8-5.1.1.2-ubuntu20.04-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
$ sudo mount -o ro,loop MLNX_OFED_LINUX-5.8-5.1.1.2-ubuntu20.04-x86_64.iso /mnt
$ cd /mnt
$ sudo ./mlnxofedinstall --guest
```
OSに含まれるパッケージのうち、環境にインストールされていないものがある場合、OFEDのインストールに失敗することがあります。

その場合は、OSのISOイメージからそれらのパッケージをインストールしてください。

（インターネット公開された最新パッケージを適用しない）。
Lustre Client ソース・設定ファイルひな形入手

DDN 社が提供するLustre Client のソースプログラムファイル及びパッチファイルと、Lustre Client 用の各種設定ファイルのひな形をmdx 内からのみアクセス可能なWeb サーバから入手します。
- lustre-2.12.9_ddn48.tar.gz
- lustre-2.12.9_ddn48.ubuntu20.04.patch (lustreを ubuntu20.04でビルドするためのパッチ)
- lustre_config_ubuntu_rdma.tgz（rdma を使用する場合）
- lustre_config_ubuntu_tcp.tgz（tcp を使用する場合）
```
$ wget http://172.16.2.26/lustre-2.12.9_ddn48.tar.gz
$ wget http://172.16.2.26/lustre-2.12.9_ddn48.ubuntu20.04.patch
$ wget http://172.16.2.26/lustre_config_ubuntu_rdma.tgz
$ wget http://172.16.2.26/lustre_config_ubuntu_tcp.tgz
```

Lustre Client パッケージビルド

入手したソースプログラムを展開し、パッケージの構築を行います。

# apt install libkeyutils-dev libmount-dev libyaml-dev zlib1g-dev module-assistant libreadline-dev libselinux1-dev libsnmp-dev mpi-default-dev libssl-dev
# tar zxf lustre-2.12.9_ddn48.tar.gz
# cd lustre-2.12.9_ddn48
# patch -p1 < ../lustre-2.12.9_ddn48.ubuntu20.04.patch
# ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make dkms-debs

これで再利用可能なdebパッケージが作成されます。

Lustre Client のインストール

注釈

既にインストールされているkernel moduleが存在する場合には、本手順実行前にremoveを行ってください。
```
# cd debs
# apt install ./lustre-client-modules-dkms_2.12.9-ddn48-1_amd64.deb
# apt install ./lustre-client-utils_2.12.9-ddn48-1_amd64.deb
```
Lustre Client の設定

入手した設定ファイルのひな形(lustre_config_ubuntu_*.tgz)を利用して、各種ファイルの修正・配備を行います。
- /etc/fstab
  
  /etc/fstab にLustre Filesystem のエントリを追加します。
  - SR-IOV を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast /fast lustre network=o2ib10,flock,noauto,defaults 0 0 172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large /large lustre network=o2ib10,flock,noauto,defaults 0 0
  - 通常の仮想NIC（VMXNET3）を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@tcp10:172.17.8.41@tcp10:/fast /fast lustre network=tcp10,flock,noauto,defaults 0 0 172.17.8.56@tcp10:172.17.8.57@tcp10:/large /large lustre network=tcp10,flock,noauto,defaults 0 0
- /etc/lnet.conf.ddn
  
  etc/lnet.conf.ddn を/etc/lnet.conf.ddn に複写し、自身の環境に合わせて修正します。
  
  修正箇所は「- net type: o2ib10」と「- net type: tcp10」のブロック内の、nid のIP アドレスとinterfaces のデバイス名です。
  
  「ストレージネットワーク1」のインタフェースのデバイス名の確認方法は、仮想マシンにてターミナルを開き、「ip -br addr」コマンドを実行いただくことで確認可能です。
  
  上記コマンドの出力結果のうち、「ストレージネットワーク1」のIPアドレスが表示された行の1カラム目に出力している項目が、ネットワークインタフェース名になります。
  
  例：「Storage Network 1」のIPアドレスが「10.134.82.79/21」であった場合。
  
  以下の実行例では、「ens194」が「ストレージネットワーク1」のネットワークインタフェース名になります。
```
$ ip -br addr
lo               UNKNOWN        127.0.0.1/8 ::1/128
ens163           UP             10.aaa.bbb.ccc/21 2001:2f8:1041:223:9ba2:6ea9:3fd4:d289/64 fe80::d707:ca60:98a:cfb2/64
ens194           UP             10.134.82.79/21 fe80::698:e5e1:3574:f2e6/64
```
  以下にIPアドレスが「10.134.82.79」、ネットワークインタフェース名が「ens194」の場合の変更例を記載します。
  
  修正前：
```
- net type: o2ib10
  local NI(s):
    - nid: 172.17.8.32@o2ib10
      status: up
      interfaces:
          0: enp59s0f0
- net type: tcp10
  local NI(s):
    - nid: 172.17.8.32@tcp10
      status: up
      interfaces:
          0: enp59s0f0
```
  修正後：
```
- net type: o2ib10
  local NI(s):
    - nid: 10.134.82.79@o2ib10
      status: up
      interfaces:
          0: ens194
- net type: tcp10
  local NI(s):
    - nid: 10.134.82.79@tcp10
      status: up
      interfaces:
          0: ens194
```
- /etc/sysconfig/lustre_client
  
  etc/sysconfig/lustre_client を/etc/sysconfig/lustre_client に複写します。
- /etc/modprobe.d/lustre.conf
  
  etc/modprobe.d/lustre.conf を/etc/modprobe.d/lustre.conf に複写します。
- /etc/init.d/lustre_client
  
  etc/init.d/lustre_client を/etc/init.d/lustre_client に複写します。
- /usr/lib/systemd/system/lustre_client.service
  
  usr/lib/systemd/system/lustre_client.service を/usr/lib/systemd/system/lustre_client.service に複写します。

Lustreクライアントサービスの自動起動を設定し、仮想マシンを再起動します。
$ sudo systemctl enable lustre_client $ sudo reboot
再起動後、/large と /fast がlustreストレージとしてマウントされます。

7.5.5. 仮想マシンテンプレートを使用しない場合 (ubuntu22.04)¶

OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-5.8-5.1.1.2-ubuntu22.04-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
$ sudo mount -o ro,loop MLNX_OFED_LINUX-5.8-5.1.1.2-ubuntu22.04-x86_64.iso /mnt
$ cd /mnt
$ sudo ./mlnxofedinstall --guest
```
Lustre Client ソース・設定ファイルひな形入手

DDN 社が提供するLustre Client のソースプログラムファイルと、Lustre Client 用の各種設定ファイルのひな形をmdx 内からのみアクセス可能なWeb サーバから入手します。
- lustre-2.14.0_ddn149.tar.gz
- lustre_config_ubuntu_rdma.tgz（rdma を使用する場合）
- lustre_config_ubuntu_tcp.tgz（tcp を使用する場合）
```
$ wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz
$ wget http://172.16.2.26/lustre_config_ubuntu_rdma.tgz
$ wget http://172.16.2.26/lustre_config_ubuntu_tcp.tgz
```

Lustre Client パッケージビルド

入手したソースプログラムを展開し、パッケージの構築を行います。

# apt install libkeyutils-dev libmount-dev libyaml-dev libjson-c-dev zlib1g-dev module-assistant libreadline-dev libssl-dev
# tar zxf lustre-2.14.0_ddn149.tar.gz
# cd lustre-2.14.0_ddn149
# ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make dkms-debs

これで再利用可能なdebパッケージが作成されます。

Lustre Client のインストール

注釈

既にインストールされているkernel moduleが存在する場合には、本手順実行前にremoveを行ってください。
```
# cd debs
# apt install ./lustre-client-modules-dkms_2.14.0-ddn149-1_amd64.deb
# apt install ./lustre-client-utils_2.14.0-ddn149-1_amd64.deb
```
Lustre Client の設定

入手した設定ファイルのひな形(lustre_config_ubuntu_*.tgz)を利用して、各種ファイルの修正・配備を行います。
- /etc/fstab
  
  /etc/fstab にLustre Filesystem のエントリを追加します。
  - SR-IOV を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@o2ib10:172.17.8.41@o2ib10:/fast /fast lustre network=o2ib10,flock,noauto,defaults 0 0 172.17.8.56@o2ib10:172.17.8.57@o2ib10:/large /large lustre network=o2ib10,flock,noauto,defaults 0 0
  - 通常の仮想NIC（VMXNET3）を使用する場合は、以下の行をfstab に追加します。
    172.17.8.40@tcp10:172.17.8.41@tcp10:/fast /fast lustre network=tcp10,flock,noauto,defaults 0 0 172.17.8.56@tcp10:172.17.8.57@tcp10:/large /large lustre network=tcp10,flock,noauto,defaults 0 0
- /etc/lnet.conf.ddn
  
  etc/lnet.conf.ddn を/etc/lnet.conf.ddn に複写し、自身の環境に合わせて修正します。
  
  修正箇所は「- net type: o2ib10」と「- net type: tcp10」のブロック内の、nid のIP アドレスとinterfaces のデバイス名です。
  
  「ストレージネットワーク1」のインタフェースのデバイス名の確認方法は、仮想マシンにてターミナルを開き、「ip -br addr」コマンドを実行いただくことで確認可能です。
  
  上記コマンドの出力結果のうち、「ストレージネットワーク1」のIPアドレスが表示された行の1カラム目に出力している項目が、ネットワークインタフェース名になります。
  
  例：「Storage Network 1」のIPアドレスが「10.134.82.79/21」であった場合。
  
  以下の実行例では、「ens194」が「ストレージネットワーク1」のネットワークインタフェース名になります。
```
$ ip -br addr
lo               UNKNOWN        127.0.0.1/8 ::1/128
ens163           UP             10.aaa.bbb.ccc/21 2001:2f8:1041:223:9ba2:6ea9:3fd4:d289/64 fe80::d707:ca60:98a:cfb2/64
ens194           UP             10.134.82.79/21 fe80::698:e5e1:3574:f2e6/64
```
  以下にIPアドレスが「10.134.82.79」、ネットワークインタフェース名が「ens194」の場合の変更例を記載します。
  
  修正前：
```
- net type: o2ib10
  local NI(s):
    - nid: 172.17.8.32@o2ib10
      status: up
      interfaces:
          0: enp59s0f0
- net type: tcp10
  local NI(s):
    - nid: 172.17.8.32@tcp10
      status: up
      interfaces:
          0: enp59s0f0
```
  修正後：
```
- net type: o2ib10
  local NI(s):
    - nid: 10.134.82.79@o2ib10
      status: up
      interfaces:
          0: ens194
- net type: tcp10
  local NI(s):
    - nid: 10.134.82.79@tcp10
      status: up
      interfaces:
          0: ens194
```
- /etc/sysconfig/lustre_client
  
  etc/sysconfig/lustre_client を/etc/sysconfig/lustre_client に複写します。
- /etc/modprobe.d/lustre.conf
  
  etc/modprobe.d/lustre.conf を/etc/modprobe.d/lustre.conf に複写します。
- /etc/init.d/lustre_client
  
  etc/init.d/lustre_client を/etc/init.d/lustre_client に複写します。
- /usr/lib/systemd/system/lustre_client.service
  
  usr/lib/systemd/system/lustre_client.service を/usr/lib/systemd/system/lustre_client.service に複写します。

Lustreクライアントサービスの自動起動を設定し、仮想マシンを再起動します。
$ sudo systemctl enable lustre_client $ sudo reboot
再起動後、/large と /fast がlustreストレージとしてマウントされます。

7.5.6. 高速内部ストレージ、大容量ストレージの利用可能な容量を確認する¶

2つの方法で確認できます。

ユーザポータルもしくは仮想マシン上でコマンドを使って確認することができます。

ユーザポータルで確認する

上部メニュー[ストレージ]→サイドメニュー[ストレージ]を選択した状態の画面で確認できます。

高速内部ストレージ/大容量ストレージのハードリミットが利用可能な容量の上限です。
仮想マシン上で確認する

プロジェクトID確認後に、プロジェクトIDとファイルシステムを指定してquota制限を確認します。
1. プロジェクトIDの確認
  
  以下の実行結果の1000XXXXの部分がプロジェクトIDです。
  
  高速内部ストレージ、大容量ストレージにファイルやディレクトリが一つも無い場合は確認できません。
  
  何か1つファイルを作成してください。
```
$ lfs project /large
 1000XXXX P /large/mdx-user01
 1000XXXX P /large/root
```
2. quota制限の確認
  
  以下の例では、ファイルシステムに大容量ストレージ(/large)を指定しています。
  
  高速内部ストレージを確認する場合は、/fastを指定してください。
  
  usedが現在の使用量、limitが上限(ハードリミット)を表しています。
  
  quotaはソフトリミットを表していて、当システムでは利用していません。
```
$ lfs quota -h -p 1000XXXX /large
 Disk quotas for prj 1000XXXX (pid 1000XXXX):
     Filesystem    used   quota   limit   grace   files   quota   limit   grace
         /large     12k      0k    100G       -       3       0       0       -
```

8. サービスレベル¶

本章では、仮想マシンをより効率的に利用することを目的としたサービスレベルに関する機能について説明します。

8.1. サービスレベルの種別¶

仮想マシンのサービスレベルの種別として「スポット仮想マシン」、「起動保証仮想マシン」の2種類が存在します。

それぞれの特徴は以下です。

8.1.1. スポット仮想マシン¶

通常プロジェクトおよびお試しプロジェクトにて利用可能なサービスレベルです。
スポット仮想マシンはプロジェクトでCPUパック・GPUパックの資源を申請することなく利用することができます(ストレージ資源は申請が必要です)。
スポット仮想マシンが利用可能なCPUパック・GPUパックは、システム全体の資源量として定義した値を上限としています。
デプロイや電源投入時に空き資源が充足する場合は、即時に仮想マシンのデプロイや起動が実行されます。
デプロイや電源投入時に空き資源が不足している場合は、既定の条件に該当する他のスポット仮想マシンを強制的に休止状態（ステータス「Deallocated」、PowerOffかつ計算資源を解放した状態）にし、解放された資源を割り当てて実行します。
- ただし、他のスポット仮想マシンを休止状態にしてもデプロイ・起動に必要な資源が不足する場合、仮想マシンのデプロイ・起動に失敗します。なお、失敗したことは操作履歴で確認できます。
他のスポット仮想マシンが資源を必要とした場合、強制的に自身のスポット仮想マシンが休止状態に移行する場合があります。
起動保証仮想マシンが資源を必要とした場合、稼働時間に関わらず強制的に自身のスポット仮想マシンが休止状態に移行する場合があります。
スポット仮想マシンが強制的に休止状態となる場合、プロジェクトユーザに対して事前に通知されるほか、ユーザポータルの仮想マシン一覧画面にて強制休止の対象であることが確認できます。

強制休止のタイミングについては、こちらをご確認ください。
スポット仮想マシンが強制的に休止状態となった場合でも、ローカルディスク（仮想ディスク）およびストレージ（高速内部ストレージ/大容量ストレージ）に保存済みのデータは削除されることなく、

仮想マシンを再起動後に以前と同じ環境で利用可能です。一方、強制停止時に実行中のプロセスが持つデータなどメモリ上にあり、ローカルディスクやストレージに保存されていないものは救済できないためご注意ください。
上記の強制的な休止状態への移行以外に、起動中のスポット仮想マシンが停止された場合も、その仮想マシンは休止状態に遷移します。
プロジェクトにCPUパック・GPUパックが割り当てられている場合は、「メンテナンス」メニューからサービスレベルを「起動保証仮想マシン」に変更することが可能です。
- ただし、対象の仮想マシンが強制休止対象( 資源確保と強制休止のタイミング参照)となった場合、「起動保証仮想マシン」へのサービスレベル変更はできません。

8.1.2. 起動保証仮想マシン¶

起動保証仮想マシンはプロジェクトに割り当てられたCPUおよびGPUの資源を利用して起動する仮想マシンです。
起動保証仮想マシンに割り当てられた資源の総量は、プロジェクトの割当量を超えることはできません。
プロジェクトに割り当てる資源量の総量は、機関に割り当てた上限を超えることはできません。但し、機関の割り当て量の総量は、システム全体の資源量を超えて定義ができます。
起動保証仮想マシンが利用可能な資源量の上限が設定でき、各プロジェクトの割当量の総量はシステム全体の上限以下で設定しなければならない（資源量の定義については後述する）。
起動保証仮想マシンの状態が電源投入状態でも、スポット仮想マシンへ変更することが可能です。
仮想マシンのデプロイや電源投入時に空き資源が充足する場合は、即時に仮想マシンのデプロイや起動が実行されます。
仮想マシンのデプロイや電源投入時に空き資源が不足する場合は、停止中や動作中の状態のスポット仮想マシンを強制休止状態へ遷移させ、解放された資源を使用して実行します。

8.2. サービスレベルの確認方法¶

仮想マシンのサービスレベルの確認は、ユーザポータルの以下の画面で確認できます。

8.2.1. ダッシュボードにて確認¶

8.2.2. 仮想マシン一覧にて確認¶

8.3. サービスレベルの指定方法¶

仮想マシンのサービスレベルの変更は、ユーザポータルから以下の操作を行うタイミングで指定可能です。

仮想マシンのデプロイ
仮想マシンの起動
仮想マシンのクローン
仮想マシンのサービスレベル変更

8.4. 資源利用イメージ¶

プロジェクトに未割り当ての起動保証用資源は、スポット仮想マシンが利用可能です。
プロジェクトに割り当てられている資源でも、未使用の場合はスポット仮想マシンが利用可能です。
起動保証仮想マシンはプロジェクトに割り当てられている範囲を超えての使用は不可となります。

8.4.1. スポット仮想マシンのデプロイまたは起動¶

GPUパックを利用するスポット仮想マシンをデプロイまたは起動すると仮定します。

演算加速ノードは1ノードあたり最大8つのGPUパックを利用できます。

以下の例では各ノードの空きパック数が6に満たない状態で、6パックを使用するスポット仮想マシンをデプロイまたは起動操作を行います。

上記の操作を行うと、起動から一定時間以上経過かつ稼働時間の長いスポット仮想マシンから順にその仮想マシンが存在するノードを確認します。

(成功パターン)

ノード上の"起動から一定時間経過したスポット仮想マシン"を停止することで、スポット仮想マシンのデプロイまたは起動に必要な資源が充足するノードが存在する場合、

その仮想マシンを強制休止した後に解放された資源を使用してデプロイまたは起動します。

※一定時間：24時間以上起動しているスポット仮想マシン

起動前
起動後

（失敗パターン）

ただし、いずれのノードでも、"起動から一定時間経過したスポット仮想マシン"を停止しても資源が不足する場合、

スポット仮想マシンのデプロイまたは起動に失敗します。

8.4.2. 起動保証仮想マシンのデプロイまたは起動¶

起動保証仮想マシンをデプロイまたは起動する際、必要とする資源が不足している場合は、スポット仮想マシン起動時の成功パターンと同様に動作します。

ただし、起動保証仮想マシンのデプロイ・起動の場合は、稼働時間が一定時間以下のスポット仮想マシンでも強制休止対象になりえます。

8.5. 資源確保と強制休止のタイミング¶

仮想マシンのデプロイ・起動時に実施されるスポット仮想マシンの強制休止処理は、一定周期で以下の順に行われます。

仮想マシンのデプロイ・起動を要求した際に必要な資源が不足(デプロイ・起動は保留状態となる)
1.操作後の周期処理のタイミング

当該仮想マシンに必要な資源が確保可能となった場合 ⇒ 資源を確保しデプロイ・起動する

当該仮想マシンに必要な資源が不足していた場合 ⇒ 強制休止対象となる仮想マシンを決定、および事前通知
さらに次の周期処理のタイミング

当該仮想マシンに必要な資源が確保可能となった場合 ⇒ 資源を確保しデプロイ・起動する(2.で予定された仮想マシンの強制休止は実施せず強制休止対象からも除外)

当該仮想マシンに必要な資源が不足していた場合 ⇒ 2.で予定された仮想マシンを強制休止して資源を確保しデプロイ・起動する
- 3.で仮想マシンを強制休止する場合のイメージ
- 2.で資源の確保が可能となった場合のイメージ

また、強制休止対象となった仮想マシンはユーザポータルの仮想マシン一覧の画面で確認できます。

対象となった仮想マシンの[サービスレベル]の先頭に、警告マークが表示されます。
強制休止対象でなくなった場合はこの警告マークは削除されます。

9. 資源再配分機能¶

本章では、仮想マシン用利用資源の有効的な利用を目的とする資源再配分機能について説明します。

9.1. 資源再配分機能の概要¶

起動保証仮想マシン用予約分の計算資源(以後、起動保証仮想マシン用資源)はプロジェクトに割り当てられ、割り当て範囲内で起動保証仮想マシンを作成することが可能です。
プロジェクトに割り当てた起動保証仮想マシン用の資源量の総計は、システム側で定義した起動保証仮想マシン用資源の上限を超えることはできません。
プロジェクトの資源申請が承認された際に要求資源量を確保できるかどうかは、起動保証仮想マシン用資源の空き状態によって異なります。
要求資源量が充足する場合は、要求資源量が割当資源量となります。
空き資源が無い（ゼロ）の場合は、割当資源量はゼロとなります。
要求資源量が不足の場合は、その時点の空き資源量が割当資源量となります。
各プロジェクトの要求資源量の総計が起動保証仮想マシン用資源量を超える場合、資源再配分機能により割り当て資源量の増減が行われます。
- 上記にかかわらず、通常プロジェクトではプロジェクトが保有するポイントの残高がゼロを下回りプロジェクトが停止した場合、もしくはプロジェクトが期間終了となった場合、
  
  そのプロジェクトの保有する起動保証仮想マシン用資源は全て解放されます(専有プロジェクトは対象外)。
- プロジェクトの停止・期間終了による資源解放のタイミングで起動保証仮想マシンをデプロイしていた場合、自動でスポット仮想マシンに変更されます。
プロジェクト毎に最低資源量（Rmin）が定義されます。
各プロジェクトのRmin の総計は、起動保証仮想マシン用資源の上限を超えないよう管理されています。
資源再配分処理は定期的に（毎月1日に）行われます。
資源再配分処理により割り当て資源量に変更がある場合は、各プロジェクトのプロジェクトユーザに対して新しい割り当て資源量の通知が行われます。

9.2. 資源再配分のタイミング¶

資源再配分処理は毎月1日に行われます。資源再配分イベントの例は以下の通りです。

9.3. 割当量の確認¶

プロジェクトへの起動保証仮想マシン用資源割り当て量は、ダッシュボードおよびプロジェクトの項目で確認することができます。

ダッシュボード
プロジェクト情報

9.4. プロジェクト情報欄で表示している項目の説明¶

割当量についてユーザポータルの「プロジェクト」で確認できますが、各項目についての用語を説明します。

CPUパック、GPUパックそれぞれの項目について

項目	説明
要求量	プロジェクトが起動保証仮想マシン用として要求している資源量
使用量	プロジェクト内で起動保証仮想マシンが使用している資源量の総和 (電源 Off 含む)
割当量	プロジェクトに起動保証仮想マシン用として割り当てられている資源量
翌月割当量	月初に行われる資源回収機能により通知された、来月の起動保証仮想マシン用の割り当て予定資源量
Rmin	プロジェクトに割り当てられる起動保証仮想マシン用資源の下限値

10. 機能詳細¶

10.1. プロジェクト申請関連機能¶

この項では、mdxにおけるプロジェクトの申請方法およびその他プロジェクト申請ポータル上で利用可能なプロジェクト申請関連機能について説明します。

10.1.1. 申請状態ごとに可能な操作¶

プロジェクトの一覧画面でプロジェクトごとの[申請状況/ Application Status]を見ると現在の状態を確認できます。

プロジェクトは状態によって利用できる操作が異なります。

申請状況/ Application Status	利用できる操作
新規作成	申請、保存
未申請/ unapplied	閲覧、申請、削除
申請中/ applied	閲覧、取戻
却下/ reject	閲覧、却下理由を確認し再申請、削除
承認済/ approved	閲覧、複写、ユーザポータルの利用

10.1.2. プロジェクトの申請内容詳細¶

10.1.2.1. プロジェクトID¶

プロジェクトが承認された際に自動的に割り振られるIDです。未承認のプロジェクトの場合は表示されません。

10.1.2.2. プロジェクト名¶

作成するプロジェクトの名称です。最大50文字で、日本語の入力も可能です。

10.1.2.3. 利用目的¶

プロジェクトを申請する目的としてmdxシステム上で取り扱う課題・研究テーマに関する情報を記載します。

最大200文字で、日本語の入力も可能です。

10.1.2.4. プロジェクトタイプ¶

プロジェクトには3つのタイプのうち1つを指定します。各タイプには物理ノードの利用形態や資源量の指定可否などの違いがあります。

プロジェクトタイプ	物理ノード	プロジェクトで利用できる資源	期間
通常	共有	プロジェクト作成後に申請	可変(申請)
セキュア(ノード専有)	専有	プロジェクト作成後に申請	可変(申請)
お試し	共有	一定の資源量に固定	3カ月

資源申請についての詳細はプロジェクト情報の確認と変更を行うをご確認ください。また、お試しを選択した場合の資源量は以下となります。

資源名	資源量
CPUパック（起動保証仮想マシン用予約分）	8
仮想ディスク	100GB
高速内部ストレージ	10GB
大容量ストレージ	10GB
グローバルIPアドレス数	1

10.1.2.5. 連携機関¶

申請するプロジェクトがどの機関に所属するかを選択します。なお、プロジェクトの承認処理は、所属機関の機関管理者によって行われます。

10.1.2.6. プロジェクト期間¶

プロジェクト期間では、申請するプロジェクトの開始日と終了日を指定します。

指定した開始日より前および終了日より後はプロジェクトの利用ができないため、ユーザポータルからプロジェクトにアクセスできません。

10.1.2.7. プロジェクト申請者情報¶

プロジェクト申請者の方の姓名と所属、住所、連絡可能なメールアドレス、および電話番号を入力します。

姓名は最大50文字まで入力できます。
プロジェクトの新規申請時は、メールアドレス認証で利用したものがメールアドレスの初期値として表示されますが、必要に応じて変更できます。

10.1.2.8. プロジェクト代表者情報¶

代表者の方の姓名と所属、連絡可能なメールアドレスを入力します。

プロジェクト申請者と同一の場合は[プロジェクト申請者と同じ/ Same as Project Applicant]を選択します。

個別に指定する場合には[プロジェクト代表者情報を指定する/ Specify Project Representative Information]を指定します。

10.1.2.9. 事務(連絡)担当者情報¶

プロジェクトの事務連絡を受け取る担当者の方の姓名と所属、連絡可能なメールアドレスを入力します。

プロジェクト申請者と同一の場合は[プロジェクト申請者と同じ/ Same as Project Applicant]を選択します。

個別に指定する場合には[事務(連絡)担当者情報を指定する/ Specify Office Contact Person Information]を指定します。

10.1.2.10. 通知¶

プロジェクトの利用者にメール通知を発行するかどうかを設定できます。対象は、下記の通りです。

プロジェクト申請者
プロジェクト代表者
事務(連絡)担当者
プロジェクトユーザ

メールによる通知は以下の契機で発行されます。

カテゴリ	通知のタイミング
プロジェクト作成・編集申請に関する通知	・申請時・承認/却下時
ポイントの購入に関する通知	・購入申請時・購入申請承認/却下時・クレジットカード決済時・支払方法編集申請時・支払方法編集申請承認/却下時・購入取消時・管理者による購入取消時
ポイントに関する通知	・ポイント残量が5000を下回った時・ポイント残量が0を下回った時・ポイント有効期限が1カ月前になった時・管理者による利用停止時・利用停止状態の解除時
プロジェクトの利用に関する通知	・お知らせ更新時・プロジェクト期間終了1カ月前・プロジェクト期間終了2週間前・プロジェクト期間終了3日前・ポイント残量が0を下回ってから83日経過時　(ポイント残量が0を下回ってから90日でプロジェクトは自動削除)
資源の回収に関する通知	・スポット仮想マシン停止の1時間前・起動保証用資源回収の1か月前

10.1.2.11. ユーザコミュニティ¶

ユーザコミュニティ（Slack）の参加の可否を設定できます。

10.1.2.12. ポイント購入を許可するユーザの追加(任意)¶

プロジェクト申請者本人以外にポイントを購入可能なユーザを設定できます。複数人を指定する場合は、”半角スペース”でユーザIDの間を区切って入力します。

10.1.2.13. 居住国に関する確認事項¶

申請者が日本国の居住者であるかどうかの確認を行います。ここでいう居住者とは
おおよそ、日本国内に住所を持つ日本人もしくは日本国内に住所を持って半年以上がたつ外国人を意味します。
詳細は、 「外国為替法令の解釈及び運用について」 (居住性の判定基準）を参照下さい。

日本の居住者ではない場合は以下の項目について追加で記載・報告する必要があります。

所属機関
所属機関所在国
身分
国籍
主たる居住地

10.1.2.14. 輸出規制に関する質問事項¶

申請者が外国政府等との雇用に関する契約を結んでいるか、外国政府等から経済的利益を受けているかについて確認します。

10.1.2.15. 利用規約および利用目的に関する同意事項¶

利用規約および利用目的に関する同意事項について申請者が同意する場合は、同意事項左のチェックボックスにチェックを入れます。

同意しない場合はプロジェクトを申請することができません。

10.1.3. 新規のプロジェクトを申請する¶

申請リストの画面左上にある[プロジェクトの申請/ Project Application]をクリックします。
プロジェクト申請に必要な項目を入力します。
- [必須/ required]と記載のある項目は申請時には必ず入力する必要があります。
- [詳細/ detail]をクリックすると項目ごとの説明を参照できます。
入力が完了したら、プロジェクト申請を行う場合は画面スクロールして最下部にある[申請/ Apply]を、プロジェクト情報を一時保存する場合には[保存/ Save]をクリックします。
プロジェクト申請一覧画面に戻ると、作成したプロジェクトが申請中の場合には[申請中/ applied]、一時保存した場合には[未申請/ unapplied]で表示されます。以上でプロジェクト申請の作成処理は完了です。

注釈

プロジェクトを一時保存する場合にはプロジェクト名のみ入力が必須となります。

10.1.4. 一時保存したプロジェクトを申請する¶

未申請状態となっているプロジェクトを申請します。

申請リスト画面で対象とするプロジェクトのプロジェクトのアクションから[申請/ Apply]をクリックします。
必要に応じて任意の項目の情報を修正します。
修正が完了したら、プロジェクト申請を行う場合は画面スクロールして最下部にある[申請/ Apply]を、再度プロジェクト情報を一時保存する場合には[保存/ Save]をクリックします。
プロジェクト申請一覧画面に戻ると、作成したプロジェクトが申請中の場合には[申請中/ applied]、一時保存した場合には[未申請/ unapplied]で表示されます。以上で申請処理は完了です。

10.1.5. プロジェクトの申請内容を削除する¶

未申請もしくは却下された状態のプロジェクトを削除します。

申請リスト画面で対象とするプロジェクトのプロジェクトのアクションから[削除/ Delete]をクリックします。
表示された内容に問題がなければ画面スクロールして最下部にある[削除/ Delete]をクリックします。
プロジェクト申請一覧画面に戻り削除したプロジェクトが表示されていないことを確認します。以上で削除処理は完了です。

10.1.6. プロジェクト申請を取り下げる¶

申請状態のプロジェクトの申請を取り下げます。

申請リスト画面で対象とするプロジェクトのアクションから[取戻/ Cancel]をクリックします。
表示された内容に問題がなければ画面スクロールして最下部にある[取戻/ Cancel]をクリックします。
プロジェクト申請一覧画面に戻り取戻処理を行ったプロジェクトが[未申請/ unapplied]状態になっていることを確認します。以上で取戻処理は完了です。

10.1.7. プロジェクトを却下された理由を確認し再申請を行う¶

申請したプロジェクトが管理者から却下された場合に、却下された理由についてのメッセージを確認し

それに応じた申請項目の修正および再申請を行います。

申請リスト画面で対象とするプロジェクトのアクションから[却下理由を確認し再申請/ Confirm Reject Reason and Reapply]をクリックします。
画面の最上部に却下理由が赤文字で表示されます。

(再申請を行う場合)

再申請を行う場合には却下理由に沿って現在の画面で任意の項目の情報を修正します。
修正が完了したら、再申請を行う場合は画面スクロールして最下部にある[再申請/ Reapply]を、プロジェクト情報を一時保存する場合には[保存/ Save]をクリックします。
プロジェクト申請一覧画面に戻ると、作成したプロジェクトが申請中の場合には[申請中/ applied]、一時保存した場合には[未申請/ unapplied]で表示されます。以上で再申請処理は完了です。

10.1.8. プロジェクトの申請内容を複写する¶

承認済みのプロジェクトを同じ入力情報で別のプロジェクトとして申請もしくは保存します。

申請リスト画面で対象とするプロジェクトのアクションから[複写/ Copy]をクリックします。
任意の項目の情報を修正します。
修正が完了したら、そのままプロジェクト申請を行う場合は画面スクロールして最下部にある[申請/ Apply]を、プロジェクト情報を一時保存する場合には[保存/ Save]をクリックします。
プロジェクト申請一覧画面に戻ると、作成したプロジェクトが申請中の場合には[申請中/ applied]、一時保存した場合には[未申請/ unapplied]で表示されます。以上で複写処理は完了です。

10.1.9. ユーザポータルへ移動してmdxの機能を利用する¶

承認されたプロジェクトの各種機能はユーザポータルで利用することができます。
申請リスト画面上で申請状況が[承認済/ approved]となっているプロジェクトについて、
プロジェクト名下の[ユーザポータルへ/ Go to User Portal]をクリックすると、ユーザポータルに移動できます。

10.2. ポイント購入申請関連機能¶

mdxのポイント制度については利用料金制度のページをご確認ください。

10.2.1. 現在利用できるポイントを確認する¶

10.2.1.1. プロジェクトのポイント保有状況を確認する¶

現在のプロジェクトのポイント保有状況は、ポイント購入可能なプロジェクトが表示されている画面で確認できます。

プロジェクト申請一覧もしくはポイント購入履歴の画面から[ポイントを購入する/ Buy Points]をクリックして移動します。

今年度残ポイント数：今年度に利用できるポイントの合計を表示します。
- 「○○○ reserved」表記のポイントは、プロジェクト期間の開始前などまだ利用開始していないポイントです。
次年度残ポイント数：次年度用に予約購入したポイントの合計を表示します。

また、前提条件を満たしたプロジェクトでは、そのプロジェクトで立ち上げた仮想マシン上でポイント保有状況を確認することも可能です。

前提条件と確認方法については仮想マシン上でプロジェクトの残ポイント数を確認するをご確認ください。

10.2.1.2. ポイントの詳細情報を確認する¶

購入単位のポイントに関する詳細情報は、申請ポータルのポイント購入履歴の画面から確認できます。

任意の購入ポイント右のアクションから[参照/Browse]をクリックすると詳細情報を表示します。

また、ユーザポータルのポイント利用状況で購入ポイント単位の残ポイントを確認できます。

10.2.2. ポイント購入申請内容詳細¶

10.2.2.1. ポイント購入者情報¶

ポイント購入者の情報を入力します。以下の全ての情報の入力が必須となります。

姓名
所属機関
所属部署
職名
郵便番号
住所
メールアドレス
電話番号

10.2.2.2. 支払事務担当者情報¶

ポイント購入者と支払事務担当者が異なる場合、[支払事務担当者を指定する/ Specify Payment clerks]を選択し、支払事務担当者の情報を入力します。ポイント購入者と支払事務担当者が同一人物の場合は、[ポイント購入者と同じ/ Same as Point Purchaser]にチェックを付けることで入力を省略できます。

支払事務担当者の情報を入力する場合は、以下の全ての情報の入力が必須となります。

姓名
所属機関
所属部署
職名
郵便番号
住所
メールアドレス
電話番号

10.2.2.3. 必要ポイント数の申請¶

ポイントは1口5000ポイント単位で購入できます。購入するポイント数を口数で入力します。

購入するポイント数は、必要ポイント数の入力欄の下部に、購入ポイント数/ Purchase points: x(xは購入ポイント数）として表示されます。

10.2.2.4. お支払方法¶

ポイント購入時の支払い方法です。

ポイント購入者が以下の場合に選択可能です。選択可能な支払い方法は請求書払い、クレジットカード払いの2種類です。

学認IDでログインかつ所属が東京大学以外の場合
mdx認証基盤IDでログインしている場合

10.2.2.5. 支払予算¶

ポイント購入者が学認IDでログインかつ所属が東京大学の場合に選択可能です。科研費、科研費以外の2種類から選択します。

10.2.2.6. 支払に関する詳細情報¶

ポイント購入者・支払方法により、設定項目が異なります。

学認IDでログインかつ所属が東京大学以外 or mdx認証基盤IDでログインしている場合

請求書払いの場合、設定項目は下記の通りです。

なお、過去に請求書払いによりポイントを購入していた場合、過去に申請した請求先を選択して申請することが可能です。
- 請求書の宛名
- 請求書送付先(各担当者と同一の連絡先とするほか、個別指定も可能)
クレジットカード払いを選択した場合、設定項目はありません。
ポイント購入者が学認IDでログインかつ所属が東京大学の場合

設定項目は下記の通りです。
- 予算責任者
- 部局名
- 部署コード(10桁)
- プロジェクトコード(12桁) / 予算科目(6桁)

10.2.3. 新規のポイント購入申請をする¶

新規のポイント購入申請を行います。

ポイント購入可能なプロジェクトが表示されている画面で、対象とするプロジェクトのアクションから [購入する/ Purchase]をクリックします。
ポイント購入申請に必要な項目を入力します。
- [必須/ required]と記載のある項目は必ず入力してください。
- ポイント購入申請の入力項目の詳細はポイント購入申請内容詳細を参照してください。
入力が完了したら申請画面最下部の左にある[申請内容を確認する/ Confirm the application]をクリックします。
- もし、入力内容に不備がある場合は申請ボタンの上に申請ボタンの上にエラーメッセージが表示されます。
  
  また、不備がある項目名が赤色で表示されますので、修正のうえ再度[申請内容を確認する/ Confirm the application]をクリックしてください。
ポイント購入申請の内容を確認して、問題が無ければ[ポイントの購入を申請する / Apply to purchase points]をクリックしてください。
ポイント購入履歴画面にて、申請したポイント購入申請のステータスが[申請中/ Applied]で表示されます。以上でポイント購入申請処理は完了です。

入力内容を一時的に保存したい場合には、[入力内容を一時保存する / Save as draft]をクリックします。一時保存したポイント購入申請を使用する場合には、復元の操作を参照してください。
ポイント購入申請を辞める場合には、[プロジェクト一覧に戻る/ Return project list]をクリックすることでポイント購入画面に戻ることができます。

10.2.4. ポイント購入を許可するユーザを操作する¶

10.2.4.1. ポイント購入を許可するユーザの追加¶

プロジェクトの申請者が、プロジェクトのポイント購入を許可するユーザを追加します。

ポイント購入可能なプロジェクトが表示されている画面で、対象とするプロジェクトのアクションから[ポイント購入者を確認する/ Verify purchasers]をクリックします。
ポイント購入者一覧画面にポイント購入可能なユーザのリストが表示されます。
リストの下部にある入力欄にポイントを購入可能なユーザのユーザIDを入力します。

複数人を指定する場合は、”半角スペース”でユーザIDの間を区切って入力してください。
入力欄の右にある[追加/ Add]をクリックします。
ポイント購入可能なユーザのリストが更新され、入力したユーザが追加されていることを確認します。以上でポイント購入可能なユーザを追加する処理は完了です。

10.2.4.2. ポイント購入を許可するユーザの削除¶

追加時同様にポイント購入者一覧画面に遷移します。
削除したいユーザの右にある[削除/ Delete]をクリックします。
ポイント購入可能なユーザのリストが更新され、削除したユーザが消えていることを確認します。以上でポイント購入可能なユーザを削除する処理は完了です。

10.2.5. 一時保存したポイント購入申請を復元して申請する¶

一時保存した未申請のポイント購入申請を復元して申請します。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[申請/ Apply]をクリックします。
[入力内容を一時保存する/ Save as draft]をクリックする前のポイント購入申請が復元されるため、必要事項を入力して、[申請内容を確認する/ Confirm the application] をクリックします。
ポイント購入申請の内容を確認して、問題が無ければ[ポイントの購入を申請する/ Apply to purchase points]をクリックしてください。
ポイント購入履歴画面にて、申請したポイント購入申請のステータスが[申請中/ Applied]で表示されます。以上で一時保存したポイント購入申請を復元して申請する処理は完了です

10.2.6. ポイント購入申請を取り下げる¶

申請中のポイント購入申請を取り下げます。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[取消/ Cancel]をクリックします。
表示された内容に問題がなければ画面スクロールして最下部にある[ポイント購入を取り消す/ Cancel point purchase]をクリックします。
ポイント購入履歴画面に戻り、取り下げたポイント購入申請のステータスが[未申請/ Unapplied]で表示されていることを確認します。以上で取り下げ処理は完了です。

10.2.7. 却下されたポイント購入申請を再申請する¶

却下されたポイント購入申請を再申請します。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[再申請/ Re-apply]をクリックします。
ポイント購入申請の内容を確認して、問題が無ければ[ポイントの購入を申請する / Apply to purchase points]をクリックしてください。
ポイント購入履歴画面にて、申請したポイント購入申請のステータスが[申請中/ Applied]で表示されます。以上で却下されたポイント購入申請を再申請する処理は完了です。

10.2.8. ポイント購入申請の支払い方法の変更を申請する¶

支払い方法がクレジットカード払い以外で承認済かつ支払方法変更期限内のポイント購入申請について、

申請時の支払い方法を変更したい場合、編集申請を利用することができます。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[支払方法編集/ Edit payment method]をクリックします。
[お支払方法/ Payment method]以下の項目について編集したい内容を入力します。
[編集内容を申請する/ Request edits edits] をクリックします。以上でポイント購入申請の支払い方法編集申請処理は完了です。

支払い方法の編集申請が承認もしくは却下されるまでは[支払方法編集/ Edit payment method]の画面で申請内容を修正することはできませんのでご注意ください。

10.2.9. ポイント購入申請の決済処理を行う(クレジットカード決済のみ)¶

支払い方法がクレジットカード払いかつ承認済のポイント購入申請の決済処理を行います。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[決済情報入力/ Enter payment info]をクリックします。
ポイント決済画面に遷移するため、ご利用内容を確認して、問題が無ければ、クレジットカード決済申し込みフォームに必要情報を入力します。
入力画面の下部の[お申し込み内容確認]をクリックします。

10.2.10. ポイント購入申請を取り消す(請求書払い・学内振替決済のみ)¶

支払い方法がクレジットカード払い以外で、ポイントが未使用かつ、支払方法変更期限内のポイント購入申請を取り消します。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[取消/ Cancel]をクリックします。
表示された内容に問題がなければ画面スクロールして最下部にある[ポイント購入を取り消す/ Cancel point purchase]をクリックします。
ポイント購入履歴画面に戻り、取り消ししたポイント購入申請が表示されていないことを確認します。以上でポイント購入申請を取り消す処理は完了です。

10.2.11. ポイント購入申請の内容を複製する¶

承認済のポイント購入申請を複製します。

ポイント購入履歴画面で対象とするポイント購入申請のアクションから[複製/ Copy]をクリックします。
[ポイントの購入/ Buy Points]画面の入力項目に初期値として、複製したポイント購入申請の情報が入力されます。以上でポイント購入申請の内容を複製する処理は完了です。

10.3. 仮想マシンの作成に関する機能¶

本章では、仮想マシンの作成に関する各種操作方法について説明します。

仮想マシンの作成に関する各種操作は上部メニューから[仮想マシン] > サイドメニューから[デプロイ]/[ISOイメージ]をクリックした画面から確認できます。

10.3.1. デプロイ¶

テンプレートから新規に仮想マシンを作成(デプロイ)します。

テンプレートにはOSなどあらかじめ様々な設定が入った仮想マシンテンプレートとOS設定のないテンプレートがあります。
自身のISOイメージから仮想マシンを作成する場合にはOS設定のないテンプレートをご利用ください。

テンプレートはプロジェクトごとに管理者から割り当てられます。

利用目的によってどのテンプレートを利用するのが適切かは各機関の管理者までお問い合わせください。

以下からデプロイの手順について説明します。

利用したいテンプレートを選択して[デプロイ]をクリックします。

テンプレート毎に「最低メモリ量 (GB)」と「最低仮想ディスク容量 (GB)」が定義されていますので、ご確認のうえ次の手順にお進みください。

※メモリ量とCPU/GPUパック数との関係は CPUパック・GPUパックについてを参照ください。

各設定項目を入力もしくは選択します。
- 仮想マシンテンプレートの場合にはハードウェアカスタマイズ画面の設定のみ行います。
- ISOイメージから新規仮想マシンを作成するためのテンプレートの場合はゲストOSの選択画面の設定を追加で行います。

<仮想マシンテンプレートの場合>

<OS設定のないテンプレートの場合>

入力が完了したら[デプロイ]をクリックします。以上で仮想マシンの作成は完了です。

10.3.1.1. デプロイ時の設定項目¶

ハードウェアのカスタマイズ

項目	説明
仮想マシン名	作成する仮想マシンの名前を最大80 文字の英数字で指定する。複数の仮想マシンを同時にデプロイしたい場合には仮想マシン名[(開始番号)-(終了番号)]という書き方が可能。指定する開始番号と終了番号は桁数を揃える必要があり、開始番号の桁が少ない場合は上位桁を「0」で埋めること。例) machine[0-3] と指定すると、名前以外のカスタマイズが同じ machine0, machine1,..., machine3 の4台 machine[00-10] と指定すると、名前以外のカスタマイズが同じ machine00, machine01,..., machine10 の11台がデプロイされるまた、カンマ(,)区切りで複数の仮想マシン名を記載での書き方も可能。例) machine0,machine1 と指定すると、machine0, machine1 の2台がデプロイされる。上記2つを組み合わせた書き方も可能。例) machine[0-1],machine2,machine3 と指定すると、machine0, machine1,machine2,machine3 の4台がデプロイされる。【使用可能な文字種】・英大文字(A-Z) ・英小文字(a-z) ・数字(0-9) ・記号：( ) + - . = ^ _ { } ~ なお、複数デプロイの場合において、以下の記号も許可する。・カンマ(,)は、区切り文字のみ・[ ]は、範囲指定のみ
パックタイプ	通常・お試しプロジェクト時のみ。構築する仮想マシンがGPU を使用しない場合は「CPU パック」を、GPU を使用する場合は「GPUパック」を選択する。
パック数	通常・お試しプロジェクト時のみ。仮想マシンに割り当てるCPUパックもしくはGPUパックの数を指定する。※ ただし、ひとつの物理ノードの資源量（CPU,メモリ）を超える仮想マシンは構成できない。 (CPUパックは最大で152パック、GPUパックは最大で8パックまで指定することが可能)
CPU数	セキュアプロジェクト時のみ。仮想マシンに割り当てるCPU数を指定する。(最大で152まで指定可)
メモリ(GB)	セキュアプロジェクト時のみ。仮想マシンに割り当てるメモリの容量を指定する。 (物理的な最大量は汎用ノードで256GB、演算加速ノードで512GBだが、GPU利用時やストレージネットワークに「SR-IOV」を選択した場合はメモリ予約が行われるため、指定できるメモリの最大量が減少する)
GPU数	セキュアプロジェクト時のみ。仮想マシンに割り当てるGPU数を指定する。(最大で8まで指定可)
仮想ディスク(GB)	OS が格納されるハードディスクの容量を指定する。minimal install でも20GB 程度は必要であり、追加インストールするアプリケーションが使用する容量を加味して大きさを見積もる。
ストレージネットワーク	ストレージネットワークとして「仮想NIC（自動）」、「仮想NIC（E1000）」、「PVRDMA」、「SR-IOV」の中から使用する種別を選択。 Lustre を使用する場合、「仮想NIC（自動）」または「SR-IOV」を選択、更にLustre をRDMA で使用する場合は「SR-IOV」を選択する。
サービスネットワーク数	構築する仮想マシンに、いくつのサービスネットワークを接続するかを選択する。単体システムの場合は1で良い。
サービスネットワーク1, 2, ..., n	利用するサービスネットワーク名を指定する。サービスネットワークは上部メニューネットワークのセグメントから追加できる(プロジェクトの初期設定としてプロジェクト名と同じ名前のセグメントが用意される)。サービスネットワーク数で選択した数と同数のサービスネットワークの項目を表示・指定できる。
デプロイ後起動する	設定中の仮想マシンのデプロイ後にすぐにマシンを起動したい場合にチェックを入れる。
起動保証仮想マシン	通常・お試しプロジェクト時のみ。設定中の仮想マシンを起動保証仮想マシンとして取り扱う場合にチェックを入れる。
ログインユーザ名	公開鍵が設定されるユーザ名が表示される。
公開鍵	ssh でログインするための公開鍵を指定する。

※1パックにつき割り当てられる資源量は CPUパック・GPUパックについてを参照ください。

ゲストOSの選択

項目	説明
ゲストOSファミリ	新規仮想マシンでインストールするOSのファミリをWindows/Linux/その他から選択する
ゲストOSバージョン	新規仮想マシンにインストールするOSの種別・バージョンをリストから選択する

10.3.2. ISOイメージ¶

この画面では仮想マシンの作成に利用するためのISOイメージをローカル環境からアップロードできます。

ISOイメージをアップロードする
- [参照]からローカル環境のISOイメージを指定し[アップロード]をクリックします。
ISOイメージを削除する

10.4. 仮想マシンの制御に関する機能¶

本章では、作成した仮想マシンを制御するための各種操作方法について説明します。

仮想マシンの制御に関する各種操作は上部メニューから[仮想マシン] > サイドメニューから[コントロール]をクリックした画面から確認できます。

コントロール画面ではメイン画面に仮想マシンのリストが表示されます。

仮想マシンの状態は[ステータス]欄から確認できます。ステータスは以下のいずれかの状態で表示されます。

ステータス名	説明
PowerON	仮想マシンの電源がONである状態。
PowerOFF	仮想マシンの電源がOFFである状態。
Deploying	仮想マシンのデプロイが進行している状態。
Deallocated	休止状態。仮想マシンの電源がOFFであることに加え計算資源(CPU・GPU)を解放した状態。

リストで指定した仮想マシンに対してコントロール画面の各種機能を利用することができます。

CONSOLE：仮想マシンの起動状態をコンソールで確認します。
- OSのインストールを行う場合もコンソールから操作を行います。
MOUNT：仮想マシンにISOイメージのマウントを行います。
- マウントに利用するISOイメージは ISOイメージのアップロード画面から事前にアップロードしておく必要があります。
SELECT MULTIPLE VMS：仮想マシンの複数の仮想マシンを同時に操作するモード(以後、マルチ操作モード)に移行します。
- [SELECT MULTIPLE VMS]をクリックしてモードが移行するとボタンの名称が[SELECT SINGLE VM]に変化します。
- [SELECT SINGLE VM]をクリックすると再度1つの仮想マシンを操作するモード(以後、シングル操作モード)に戻ります。

以下の機能は[ACTION]から利用できます。

電源：仮想マシンの電源操作を行います。
構成変更：仮想マシンのハードウェア構成の設定値を変更します。
メンテナンス：仮想マシンのメンテナンス機能を利用します。

10.4.1. 複数の仮想マシンを同時に操作する¶

[SELECT MULTIPLE VMS]をクリックするとマルチ操作モードに移行し、専用の画面が表示されます。

シングル操作モードでは、仮想マシンの状態によって利用可能な操作が異なるのに対して、
このモードでは、選択したすべての仮想マシンの状態によらずすべての操作が実行できます。
その結果、一部の仮想マシンがその操作を利用できない状態の場合にはそのマシンは操作に失敗します。

操作する仮想マシン名の左にあるチェックボックスをチェックします。

すべての仮想マシンを対象とする場合はリスト最上部の項目名左にあるチェックボックスをチェックします。

選択した仮想マシンに対する操作を選択します。

電源：選択した仮想マシンに対して電源関連の操作を行います。
- 可能な操作は[起動], [シャットダウン], [再起動], [リセット], [強制停止]です。
削除：選択した仮想マシンを削除します。
CSVダウンロード：選択した仮想マシンのネットワークに関する情報を出力します。

10.4.2. 電源関連の操作を行う¶

[ACTION]＞[電源]から対象の仮想マシンについて電源関連の操作を行うことができます。
可能な操作は[起動], [シャットダウン], [再起動], [リセット], [強制停止]です。
ただし、対象の仮想マシンに VMWare Tools がインストールされていない場合、
もしくは、VMWare Toolsがインストールされていても実行されていない場合、[シャットダウン]は選択できません。
VMWare Toolsの状態は仮想マシンの詳細情報に表示されるサマリタブ内の項目[VMWare Tools]で確認できます。

マルチ操作モードの場合は仮想マシンの起動状態によらずすべての操作を実行できますが、

無効な操作となる場合は操作に失敗します。

10.4.3. ハードウェア構成設定を変更する¶

[ACTION]＞[構成変更]から仮想マシン作成時に設定したハードウェア構成設定を変更することができます。

(通常プロジェクトの場合) パック数
(セキュアプロジェクトの場合) CPU数
(セキュアプロジェクトの場合) メモリ(GB)
(セキュアプロジェクトの場合) GPU数
サービスネットワーク数
サービスネットワーク
仮想ディスク容量
仮想ディスクの追加・削除

注：仮想ディスク容量を増やす場合には仮想マシン側でパーティションの再設定が必要となります。操作例についてはこちらをご確認ください。

10.4.4. メンテナンス¶

[ACTION]＞[メンテナンス]からその他の操作を行うことができます。

仮想マシン名変更：仮想マシンの名称を変更します。詳細はデプロイ時の設定項目。
仮想マシンの削除：仮想マシンを削除します。
仮想マシンのクローン：仮想マシンのクローンを行います。
仮想マシンの休止：仮想マシンを休止状態(ステータス「Deallocated」)にして仮想マシンに割り当てられている計算資源を解放します。
- 休止後の仮想マシンの状態は、 VMWare Tools のインストール状態によって異なります。
- VMWare Toolsの状態は仮想マシンの詳細情報に表示されるサマリタブ内の項目[VMWare Tools]で確認できます。
  - VMware Toolsがインストール済みかつ実行されている場合の仮想マシン：シャットダウン → CPUおよびGPUの割り当て解除
  - VMware Toolsがインストールされていない、もしくはインストール済かつ実行されていない場合の仮想マシン：強制停止 → CPUおよびGPUの割り当て解除
サービスレベル変更：現在の仮想マシンのサービスレベルを変更します。「スポット仮想マシン」から「起動保証仮想マシン」への変更あるいは、「起動保証仮想マシン」から「スポット仮想マシン」へ変更します。
アロケートのキャンセル：仮想マシンの起動処理中で空きリソース待ちの際、起動処理中の状態をキャンセルします。
OVFインポート：仮想マシンのOVFイメージをインポートします。
OVFエクスポート：仮想マシンのOVFイメージをエクスポートします。
ACL設定：指定したマシンのIPアドレスを元にACLの設定を追加します。詳細は ACL設定。
DNAT設定：指定したマシンのIPアドレスを元にDNATの設定を追加します。詳細は DNAT設定。

10.4.4.1. 仮想マシンのクローンを利用して仮想マシンを複製する¶

仮想マシンの複製を行いたい場合、[ACTION]＞[メンテナンス]＞[仮想マシンのクローン]より行います。

クローン時の設定項目は、デプロイ時の設定項目で書かれた一部を指定できますが、項目の説明内容は同じ意味になります。なお、仮想マシン名の記述形式により、複数の仮想マシンを同時にクローンできます。

詳細はデプロイ時の設定項目をご確認ください。

10.4.4.2. OVFイメージを利用して仮想マシンを作成する¶

仮想マシンのOVFイメージを利用してOSのクローンを行います。
mdxではVMware vSphere ESXi 7.0U3を使用しているため、OVFは仮想ハードウェアバージョン19もしくはそれ以前のものを使用してください。
vmware製品の各バージョンがサポートしている仮想ハードウェアバージョンは以下を参照してください。
https://knowledge.broadcom.com/external/article/315655/virtual-machine-hardware-versions.html

エクスポート

注釈

本操作を行う際は仮想マシンの状態を示すステータス欄が「休止（Deallocated）」であることをご確認ください。
1. コントロール画面のリストからエクスポートする仮想マシンにチェックを入れます。
2. [ACTION]＞[メンテナンス]から[OVFエクスポート]をクリックします。
3. 確認画面で[はい]をクリックします。
4. ブラウザのダウンロード機能でローカルに.ovf、.vmdkファイルの2点を保存します。
インポート
1. [ACTION]＞[メンテナンス]から[OVFインポート]を選択します。
2. ローカルファイルでエクスポート時に生成した.ovf、.vmdkファイルをクリックします。
3. その他の項目を入力します。詳細はデプロイ時の設定項目から確認できます。
4. 入力が完了したら[はい]をクリックします。

10.5. ネットワーク設定¶

本章では、ネットワークに関する設定を行う手順について説明します。

本設定は上部メニューから[ネットワーク]をクリックした画面から確認できます。

10.5.1. セグメント¶

個別のネットワーク領域であるセグメントの確認および追加を行います。

設定を確認するためにはサイドメニューから[セグメント]をクリックします。

リストから任意のセグメントを選択すると、セグメントのパラメータを確認できます。

VLAN ID
IPアドレス範囲

10.5.1.1. セグメントの追加¶

新たなセグメントを追加します。

メイン画面・リスト上部の[+セグメント]をクリックします。

新しいセグメントの名称を入力します。

[追加]をクリックします。

10.5.1.2. セグメントの削除¶

利用されていないセグメントを削除します。

任意のセグメントを選択します。
メイン画面・リスト上部の[DELETE]をクリックします。

削除しても問題ない場合は[はい]をクリックします。

10.5.2. ACL(Access Control List)¶

注釈

外部(Internet)からの通信は初期状態では、全て遮断状態です。許可したい通信のみ設定するようお願いします。
ACL設定はセキュリティに関わる重要な設定項目です。各利用者のセキュリティ管理は利用者の自己責任となります。
設定の影響を理解した上で十分ご注意の上設定いただくようお願いします。

セグメントごとに仮想マシンへの接続を許可するネットワークの設定を行います。

本機能はサイドメニューの[ACL]から利用できるほか、仮想マシンのメンテナンスからもアクセス可能です。

本機能ではメイン画面の上部にセグメントのリスト、下部に選択したセグメントのACL設定情報が配置されます。
また、下部のIPv4, IPv6タブからそれぞれのACLを設定することができます。
以下の操作により現在の設定を確認できます。

メイン画面上部リストよりACLの設定を行う任意のセグメントを選択します。
メイン画面下部リストにてIPv4、IPv6のいずれかからネットワーク設定を確認したい方のタブをクリックします。

10.5.2.1. 設定項目¶

項目	説明
プロトコル	許可するプロトコルを、ICMP(IPv6の場合は"ICMPv6")、TCP、UDPの中から選択する。
Srcアドレス/ SrcPrefix長	アクセスを許可する送信元のIP アドレスを指定する。 Prefix 長によってアドレス範囲が決まる。ここで指定したアドレス以外は接続を許可しない。
Srcポート	アクセスを許可する送信元のポート番号を指定する。ポート番号を指定は、複数指定(例：「80,443」)、範囲の指定(例：「22-443」)、Any（全て）の指定も可能。
Dstアドレス/ DstPrefix長	アクセスを許可する仮想マシンのIP アドレスを指定する。 Prefix 長によってアドレス範囲が決まる。ここで指定したアドレス以外は接続を許可しない。
Dstポート	アクセスを許可する仮想マシンのポート番号を指定する。ポート番号を指定は、複数指定(例：「80,443」)、範囲の指定(例：「22-443」)、Any（全て）の指定も可能。

Tips

ネットワークアドレスの設定方法についての詳細は FAQのDNAT・ACLについてをご確認ください。

10.5.2.2. ACLの設定方法¶

[+RECORD]をクリックします。

各設定項目を入力します。
入力が完了したら[追加]をクリックします。

10.5.2.3. レコードの削除¶

削除したい任意のレコードを選択した状態で[DELETE]をクリックします。
確認画面が表示されますので問題なければ[はい]をクリックします。

10.5.2.4. レコードの編集¶

編集したい任意のレコードを選択した状態で[EDIT]をクリックします。
編集したい設定項目を更新します。
入力が完了したら[編集]をクリックします。

10.5.3. DNAT¶

注釈

プロジェクトに割り当てられたグローバルIPv4アドレスへの通信を、仮想マシンについたプライベートIPv4アドレスに転送し、
プロジェクト外部(インターネットなど)と仮想マシンが直接通信できるようにします。
本設定と合わせて、転送先アドレスへの通信を許可する設定をACLのページで行う必要がありますのでご注意ください。

仮想マシンの宛先プライベートアドレスをグローバルアドレスに変換します(DNAT)。

本機能はサイドメニューの[DNAT]から利用できるほか、仮想マシンのメンテナンスからもアクセス可能です。

DNATにおける設定項目は以下の通りです。

項目	説明
転送元グローバルIPv4アドレス	変換先のグローバルアドレスを指定する。
セグメント	対象となるセグメントを指定する。
転送先プライベートIPアドレス	変換元の仮想マシンのIP アドレスを指定する。

DNATの設定方法を以下で説明します。

10.5.3.1. DNAT設定の追加¶

[+DNAT]をクリックします。

各設定項目を入力します。
入力が完了したら[追加]をクリックします。

10.5.3.2. DNAT設定の削除¶

削除したい任意のDNAT設定を選択した状態で[DELETE]をクリックします。

確認画面が表示されますので問題なければ[はい]をクリックします。

10.5.3.3. DNAT設定の編集¶

編集したい任意のDNAT設定を選択した状態で[EDIT]をクリックします。

編集したい設定項目を更新します。
入力が完了したら[編集]をクリックします。

10.6. ストレージの利用状況の確認および追加ストレージの申請¶

本章では、ストレージ利用に関する設定を行う手順について説明します。本設定は上部メニューから[ストレージ]をクリックした画面から確認できます。

10.6.1. ストレージの利用状況を確認する¶

ストレージの利用状況はサイドメニューの[ストレージ]から確認できます。

また、メイン画面下部の[オブジェクトストレージの申請]から、追加のストレージ利用を申請することができます。

申請するストレージのサイズをGB単位で指定します。
申請内容に問題がないことを確認して[申請]をクリックします。以上でオブジェクトストレージの申請は完了です。

10.6.2. オブジェクトストレージにアクセスするためのキーの確認・追加を行う¶

オブジェクトストレージにアクセスするためのアクセスキーの確認と追加を行うことができます。

本機能はサイドメニューの[アクセスキー]から利用できます。

アクセスキーを追加します
- 追加する際にはアクセスキーの有効期限を同時に設定します
アクセスキーを削除します
アクセスキーの有効期限を編集します
アクセスキーの有効・無効状態を切り替えます

10.7. プロジェクトの確認と変更に関する機能¶

本章では、プロジェクトの基本情報の確認および申請・設定を行う手順について説明します。

本設定は上部メニューから[プロジェクト]をクリックした画面から確認できます。

注釈

本章で説明するプロジェクトに関する変更などの処理は画面ヘッダ部に表示されているプロジェクトに対して行われます。

意図しないプロジェクトに対して変更を行わないようご注意ください。

10.7.1. プロジェクト情報の確認と変更を行う¶

本機能はサイドメニューの[プロジェクト]から利用できます。

プロジェクトに関する基本情報と割り当てられている資源量・その利用状況について確認できます。

プロジェクトには以下のような申請・変更を行うことができます。

プロジェクトの資源の申請・期間の変更を申請します。

設定可能な項目は以下の通りです。本申請はプロジェクト種別が「お試し」以外の場合に実施できます。
- (通常プロジェクトの場合) CPUパック（起動保証仮想マシン用予約分）
- (通常プロジェクトの場合) GPUパック（起動保証仮想マシン用予約分）
- (セキュアプロジェクトの場合) 専有汎用ノード数
- (セキュアプロジェクトの場合) 専有演算加速ノード数
- 仮想ディスク(GB)
- 高速内部ストレージ(GB)
- 大容量ストレージ(GB)
- グローバルIPアドレス数
- 終了期間
プロジェクト名を変更します
プロジェクトを削除します

注釈

プロジェクトを削除すると、仮想マシンもすべて削除されアクセスができなくなります。

削除された仮想マシンを復旧させることはできませんので、ご注意ください。

10.7.1.1. 申請できる資源について¶

プロジェクト種別ごとに以下「〇」がついている資源を申請できます。

資源	通常	専有
CPUパック（起動保証仮想マシン用予約分）	〇	-
GPUパック（起動保証仮想マシン用予約分）	〇	-
専有汎用ノード数	-	〇
専有演算加速ノード数	-	〇
仮想ディスク	〇	〇
高速内部ストレージ	〇	〇
大容量ストレージ	〇	〇
グローバルIPアドレス数	〇	〇

CPUパック・GPUパックについては mdxにおける資源の単位について で説明しています。
ここで申請できるCPUパック・GPUパックは起動保証仮想マシンを利用するための資源ですので、
スポット仮想マシンのみを利用する場合は申請する必要はありません。(詳細は サービスレベル 参照)
なお、1台の仮想マシンに指定できるパック数の上限は、CPUパックが152パック、GPUパックが8パックとなります。

また、CPUパック・GPUパックはプロジェクトが保有するポイントの残高がゼロを下回り、プロジェクトが停止した場合、

もしくはプロジェクトが期間終了となった場合、すべて解放されます。

上記の資源解放のタイミングで起動保証仮想マシンをデプロイしていた場合、自動でスポット仮想マシンに変更されます。

資源解放後、起動保証仮想マシン用にCPUパック・GPUパックを利用したい場合は再度資源の申請を行います。

専有プロジェクトの場合は CPUパック・GPUパックの単位ではなく、使用するノード種別とノード数を指定して申請します。

ノード毎の資源量は以下の通りです。

名称	仮想CPU数	仮想メモリ量	GPU数
専有汎用ノード	152	約256GB	0
専有演算加速ノード	152	約512GB	8

なお、1台の仮想マシンに指定できるCPU数の上限は152CPU、GPU数の上限は8GPUとなります。

仮想ディスクは仮想マシンの仮想ハードディスク領域で、OSが格納されます。
この領域は、仮想マシン毎に最低20GB程度（minimalinstall）は必要です。
また、仮想マシンにインストールするアプリケーションが使用する容量を考慮して申請量を決める必要があります。
例えば4つの仮想マシンを運用する場合、
ひとつの仮想マシンが使用するハードディスクサイズを80GBと仮定した場合、仮想ディスクの容量は320GBを申請します。

高速内部ストレージと大容量ストレージは、仮想マシンの作業領域として使用するファイルシステムです。

本領域は、プロジェクトが作成する仮想マシンの共用ファイルシステムとなります。

グローバルIPアドレス数は、外部からアクセス可能とする仮想マシン数分を指定します。
例えばプロジェクト全体で16個の仮想マシンを運用し、その内、2個の仮想マシンを外部からアクセス可能とする場合、
グローバルIPアドレス数は2以上を指定します。なお、払い出されるグローバルIPはIPv4であり、
IPv6のアドレスはRA（RouterAdvertisement）によって割り当てられたアドレスで外部からアクセス可能です。

10.7.2. プロジェクトに所属するユーザの確認と変更を行う¶

現在のプロジェクトに所属しているユーザの確認および追加・削除を行うことができます。

本機能はサイドメニューの[ユーザ]から利用できます。

プロジェクトに新しいユーザを追加します

設定可能な項目は以下の通りです
- 認証基盤：ユーザが利用しているアカウントを学認、もしくはmdxローカルアカウント(mdx認証基盤)のいずれかで指定する
- mdx独自ID or 学認ID：ユーザを識別するための名称
- メールアドレス：ユーザの連絡先メールアドレス
リストで選択されているユーザをプロジェクトから削除します
リストで選択されているユーザの情報を編集します

10.7.3. 申請の状況を確認する¶

プロジェクト編集申請やオブジェクトストレージ申請など、現在のユーザの申請状態を確認することができます。

申請リストの項目を選択すると申請した内容の詳細情報を確認できます。

各申請の現在の状態は[ステータス]欄に以下の状態で表示されます。
- 受付中
- 承認済み
- 却下

10.7.4. プロジェクトが保有するポイント状況を確認する¶

現在のプロジェクトが保有するポイントの状況を確認することができます。本機能はサイドメニューの[ポイント利用状況]から利用できます。

確認可能な項目は以下の通りです。
- ポイント管理番号
- 購入ポイント数
- 利用ポイント数
- 残ポイント数
- 利用期限

10.7.5. 資源の利用状況を確認する¶

指定した期間内で利用した資源量と消費したポイントを確認することができます。本機能はサイドメニューの[資源利用状況]から利用できます。

開始および終了日時を年月日と正時で指定した状態で[表示]をクリックすると結果が確認できます。
機能利用時点までの7日・30日・90日・365日の期間の結果を知りたい場合は[最近〇日]をクリックすることでも確認できます。

10.8. その他の機能について¶

10.8.1. インフォメーション¶

本内容は上部メニューから[インフォメーション]をクリックした画面から確認できます。

10.8.1.1. ポータル管理者からのお知らせを確認する¶

ポータルのシステム管理者からシステムのメンテナンス予定や一時的なアナウンスなどの情報を確認することができます。

10.8.1.2. ユーザポータル上で行った操作の進捗状態と履歴を確認する¶

ユーザポータル上で今までに実施した各種操作について、現在の進捗状態および完了している場合にはその操作の実施結果を確認することができます。

操作種別に対して実際に行われている操作内容の一覧を以下に示します。

操作種別	ユーザ名	操作内容
休止	System	資源奪取による自動休止
休止	System	資源再配分による自動休止
休止	System	メンテナンスフラグ設定時の移動処理における休止
休止 (プロジェクト期間終了)	System	プロジェクトの期間終了による自動休止
休止 (プロジェクト停止)	System	プロジェクト停止による自動休止
自動休止	System	パワーオフ状態のスポット仮想マシンの資源解放
デプロイ	user name	仮想マシンのデプロイ
新規作成	user name	テンプレート (ISOイメージ)によるデプロイ
仮想マシン起動	user name	仮想マシンの起動
仮想マシン名変更	user name	仮想マシン名の変更
仮想マシン削除	user name	仮想マシンの削除
仮想マシン強制停止	user name	仮想マシンのパワーオフ
仮想マシンリセット	user name	仮想マシンのパワーオフ処理後、パワーオン
ゲストOSのシャットダウン	user name	仮想マシンのシャットダウン
ゲストOSの再起動	user name	仮想マシンのOSシャットダウン処理後、パワーオン
設定の編集	user name	仮想マシンの各リソースの設定変更
コンソール	user name	コンソール表示
クローン	user name	仮想マシンのクローン
ISOイメージアップロード	user name	ISOイメージアップロード
ISOイメージマウント	user name	仮想マシンへISOイメージのマウント
ISOイメージアンマウント	user name	仮想マシンのISOイメージのアンマウント
OVFエクスポート	user name	仮想マシンのOVFイメージエクスポート
OVFインポート	user name	仮想マシンのOVFイメージインポート
DNATの編集	user name	ネットワークのDNAT設定
ACL (IPv4)の作成	user name	ネットワークのACL (IPv4)の新規追加
ACL (IPv4)の編集	user name	ネットワークのACL (IPv4)の設定済み内容の変更
ACL (IPv6)の作成	user name	ネットワークのACL (IPv6)の新規追加
ACL (IPv6)の編集	user name	ネットワークのACL (IPv6)の設定済み内容の変更
セグメントの作成	user name	ネットワークセグメントの追加
プロジェクト編集	user name	プロジェクト情報の編集申請
ユーザの作成	user name	プロジェクトユーザの追加
ユーザの編集	user name	プロジェクトユーザ情報の編集
パスワード変更	user name	プロジェクトユーザのパスワード変更
オブジェクトストレージの申請	user name	オブジェクトストレージの利用申請
アクセスキーの編集	user name	オブジェクトストレージ用アクセスキーのメモや有効期限の編集
アクセスキーの有効化	user name	オブジェクトストレージ用アクセスキーの有効化

10.8.2. ヘルプ¶

メールで管理者に問合せを行います。お問合せ画面からメーラーを起動する場合にはお問合せに必要な情報が自動的に挿入されます。

上部メニューから[ヘルプ]をクリックします。
お問合せ画面の記載事項に従ってメーラーを利用し問合せを行います。

11. 複数仮想マシンによるクラスタの作成例¶

mdx上にデプロイした複数の仮想マシンを使って簡単なクラスタを構築する例について説明します。

11.1. Ansibleとその概要¶

複数のVMをデプロイしたときに、VMを一台一台手動で設定していくのは現実的ではありません。

そこで複数のマシンを自動で一気に設定してくれるプロビジョニングツールを利用することになります。

ここでは、そうしたプロビジョニングツールのひとつである Ansible を使ってmdx上に複数のVMを展開して設定する例を紹介します。

Ansibleは、OSの中身の設定、たとえばパッケージのインストールや設定ファイルの変更、デーモンの起動など、OSのインストール後に行う作業を自動化するためのツールです。

Ansibleは大量のVMを一気に設定するようなユースケースをはじめさまざまな分野で広く利用されており、Linuxの主要なディストリビューションやmacOSでも実行可能です。

Ansibleを実行するために最低限必要なファイルは、

playbook
設定するマシンの中で実行する処理を記述したYAML形式のファイル
inventory
設定を行う対象のマシンのIPアドレスや付加する情報などを記述したファイル

の2つです。

例えばplaybookとして deploy-jupyter.yaml を用意し、その中にはJupyterlabをデプロイするために必要な処理を記述します。

次にその処理を実行したいVMのIPアドレスを記載したinventoryとして hosts というファイルを用意し、 ansible-playbook -i hosts deploy-jupyter.yaml と打てば、複数のVMにJupyterlabを立ち上げることができます。

Ansibleの特徴のひとつはAgent-lessであることです。
Ansibleでは、 ansible-playbook コマンド (ないし ansible コマンド)を実行して他のホストを設定/制御するホストをControl node、逆にControl nodeから設定/制御されるホスト(この場合はVM)をManaged nodeと呼びます。
Ansibleを実行するためにはControl nodeがManaged nodeへssh(と大抵の場合はsudo)できればよく、事前にManaged nodeに何らかのエージェントソフトウェアを入れる必要はありません。
もちろん、Control nodeにはAnsibleをインストールする必要があります。

                       +---------+
playbook.yaml          |         |
hosts                  | Managed |
+---------+     +----->|  node1  |
|         |     |      |         |
| Control | ssh |      +---------+
|  node   +-----+
|         |     |      +---------+
+---------+     |      |         |
                |      | Managed |
                +----->|  node2  |
                       |         |
                       +---------+

上記の図は、とても簡略化したAnsibleの実行イメージを示しています。

Control nodeに、Managed node1と2のIPアドレスを記載したinventoryファイルを用意し、どのように設定するかを記載したplaybookを用意して ansible-playbook コマンドを実行すると、ssh越しに2台のManaged Nodeが設定されます。

11.2. https://github.com/mdx-jp/machine-configs ¶

machine-configsレポジトリに、 mdx上で複数のVMによる簡単なクラスタを構築するためのplaybookを用意しています。

ここでは、machine-configsの使い方を説明します。

注釈

現在全てのplaybookは ubuntu server 20.04 テンプレートから作成したVMに対して実行することを想定しています。

クラスタの構築を始めるにあたって、まずはmdx上に複数のVMを作成してください。

仮想マシン利用の流れを参考に ansible-playbook を実行するVM (ControlNode)を1台と、クラスタになるVM (Managed Node)を必要な台数作成します。

なおControl nodeは、Ansibleがインストールされ、Managed nodeにsshで接続できるホストであれば、mdxのVMである必要はありません。
mdxのVMに割り当てられるIPアドレスは、IPv4はプライベートアドレスですが、IPv6はグローバルアドレスです。
例えば、適切なACLの設定を行えばIPv6疎通性のある手元のホストから直接AnsibleでVMを設定することも可能です。

下の図では、 ansible-playbook を実行する test というノードをubuntu-2004-serverテンプレートからデプロイし、続いてクラスタになる vm1 から vm8 までの8台のVMを、同様にubuntu-2004-serverテンプレートから、VMデプロイ時の仮想マシン名に vm[1-8] と入力することで一度にデプロイしました。

ACLの設定やssh公開鍵の投入などは、ネットワーク設定や仮想マシン利用の流れを参照し、利用者自身の環境に合わせて実施してください。

OpenMPIやLustreストレージにRDMAで接続する場合は、ストレージネットワークを SR-IOV で作成してください。

11.3. クラスタの構築: 準備編¶

11.3.1. Ansibleのインストール¶

まずは ansible-playbook を実行するVM(上記例では test という名前のVM)にログインし、Ansibleをインストールします (最初にわかりやすさのためにホスト名を変更しています)。
Ansible実行時にはこのホストから各VMにsshすることになります。
そのため、このホストにsshする際はssh-agent (ssh -A)などを用いて、このホストから各VMにmdxuserでsshできるようにしてください。

mdxuser@ubuntu-2004:~$ sudo hostnamectl set-hostname ansible
mdxuser@ubuntu-2004:~$ bash

mdxuser@ansible:~$ sudo apt install ansible
Reading package lists... Done
Building dependency tree
Reading state information... Done
Suggested packages:
cowsay sshpass
The following NEW packages will be installed:
  ansible
  0 upgraded, 1 newly installed, 0 to remove and 17 not upgraded.
Need to get 5794 kB of archives.
After this operation, 58.0 MB of additional disk space will be used.
Get:1 http://jp.archive.ubuntu.com/ubuntu focal/universe amd64 ansible all 2.9.6+dfsg-1 [5794 kB]
Fetched 5794 kB in 1s (4666 kB/s)
Selecting previously unselected package ansible.
(Reading database ... 125879 files and directories currently installed.)
Preparing to unpack .../ansible_2.9.6+dfsg-1_all.deb ...
Unpacking ansible (2.9.6+dfsg-1) ...
Setting up ansible (2.9.6+dfsg-1) ...
Processing triggers for man-db (2.9.1-1) ...

11.3.2. machine-configsレポジトリの取得¶

次にplaybookが用意されている machine-configs のGitレポジトリをクローンしてそこに移動します。

mdxuser@ansible:~$ git clone https://github.com/mdx-jp/machine-configs
Cloning into 'machine-configs'...
remote: Enumerating objects: 785, done.
remote: Counting objects: 100% (785/785), done.
remote: Compressing objects: 100% (510/510), done.
remote: Total 785 (delta 376), reused 622 (delta 214), pack-reused 0
Receiving objects: 100% (785/785), 119.50 KiB | 9.96 MiB/s, done.
Resolving deltas: 100% (376/376), done.
mdxuser@ansible:~$ cd machine-configs/
mdxuser@ansible:~/machine-configs$ ls
ansible.cfg  mdxcsv2inventory.py  playbook.yml  roles
files        mdxpasswdinit.py     README.md     vars

11.3.3. inventoryファイルの作成¶

playbookを実行するためには、設定したいVMのアドレスを記載したinventoryファイルが必要です。

machine-configsのレポジトリには、このinventoryファイルを簡単に作成するためのスクリプト mdxcsv2inventory.py が用意されています。

ユーザポータルの [仮想マシン]タブから[コントロール]で、[SELECT MULTIPLE VMS]を選択し、[ACTION]の[CSVダウンロード]をクリックすると、VM一覧で選択したVMに関するIPアドレスなどが記載されたCSVファイルをダウンロードすることができます。

ここからダウンロードしたCSVファイルをAnsibleを実行するVMへ(scpやsftpなどで)持っていきます。

mdxcsv2inventory.py にダウンロードしてきたCSVファイルを与えると、CSVファイルに記載されているVMをManaged Nodeとするinventoryファイルを生成します。

mdxuser@ansible:~/machine-configs$ ./mdxcsv2inventory.py user-portal-vm-info.csv
[all:vars]
ansible_user=mdxuser
ansible_remote_tmp=/tmp/.ansible
ethipv4prefix=10.13.200.0/21
rdmaipv4prefix=10.141.200.0/21
ethipv6prefix=2001:2f8:1041:21e::/64

[default]
10.13.204.85    hostname=vm1 ethipv4=10.13.204.85    rdmaipv4=10.141.200.147
10.13.204.83    hostname=vm2 ethipv4=10.13.204.83    rdmaipv4=10.141.200.146
10.13.204.89    hostname=vm3 ethipv4=10.13.204.89    rdmaipv4=10.141.204.70
10.13.200.158   hostname=vm4 ethipv4=10.13.200.158   rdmaipv4=10.141.204.63
10.13.204.90    hostname=vm5 ethipv4=10.13.204.90    rdmaipv4=10.141.200.149
10.13.204.87    hostname=vm6 ethipv4=10.13.204.87    rdmaipv4=10.141.200.150
10.13.204.84    hostname=vm7 ethipv4=10.13.204.84    rdmaipv4=10.141.204.64
10.13.204.86    hostname=vm8 ethipv4=10.13.204.86    rdmaipv4=10.141.204.67

[default] という表記はグループを示しています。Ansibleでは、inventoryでホストをグループにまとめ、playbookの中ではグループに対してどのような処理を行うかを記述します。
mdxcsv2inventory.py は全てのVMのアドレスを記載したグループとしてこの [default] を作成しています。
後で利用するために、この出力結果を hosts.ini というファイルに保存しておきます。

mdxuser@ansible:~/machine-configs$ ./mdxcsv2inventory.py user-portal-vm-info.csv > hosts.ini

11.3.4. Ansibleを実行する前の事前準備¶

mdxで提供されるubuntuの仮想マシンテンプレートは、mdxuserの最初のログイン時にmdxuserのパスワードを設定する必要があります。
Ansibleはsshした先で設定変更などを行うため、このパスワード設定が完了していないと、Ansibleの実行が失敗します。
そこでmachine-configsに含まれる mdxpasswordinit.py を使って、inventoryファイルの [default] グループのホストに対して一気に初期パスワードを設定します。

mdxuser@ansible:~/machine-configs$ ./mdxpasswdinit.py ./hosts.ini
Target hosts: 10.13.204.85, 10.13.204.83, 10.13.204.89, 10.13.200.158, 10.13.204.90, 10.13.204.87, 10.13.204.84, 10.13.204.86
New Password:
Retype New Password:
initializing the first password...
10.13.204.85: Success
10.13.204.83: Success
10.13.204.89: Success
10.13.200.158: Success
10.13.204.90: Success
10.13.204.87: Success
10.13.204.84: Success
10.13.204.86: Success

この操作はVMに対して一回だけ実行すれば大丈夫です。

11.4. Playbookの準備と実行¶

現在machine-configsが提供するVMへの操作は、下記の通りです。

Role	Desciprition
common	ホスト名や/etc/hostsを設定し、指定したパッケージをインストールする
desktop_common	xrdpをインストールする
nfs_server	VMをNFSサーバにし、/homeをexportする
nfs_client	NFS越しに/homeをマウントする
ldap_server	VMをLDAPサーバにし、LDAPアカウントを作成する
ldap_client	VMをLDAPクライアントにし、LDAPサーバを参照するように設定する
jupyter	jupyter labをインストールし、デーモンとして起動する
reverse_proxy	VMをリバースプロキシにし、特定ポートへのアクセスを他のVMの特定ポートに転送する
mpi	OpenMPIを使えるように設定する

Ansibleでは、Managed nodeに対して実行する一連の処理をtaskと呼び、そのtaskをひとまとめにしたものをRoleと呼びます。

machine-configsには上記のRoleが含まれています。

machine-configsの playbook.yml が、上記の全てを適用するPlaybookです。

この playbook.yml でホストに対してRoleを適用するブロックは下記のようになっています。

- name: setup NFS server
  hosts: nfsserver
  roles:
  - nfs_server

これは、 nfsserver というホストのグループに対して、 nfs_server のRoleを適用する、という記述です。
mdxcsv2inventory.py はデフォルトでは [default] というグループしか作成しません。
上記を実行するためには、VMが1台所属する nfsserver というグループを作成しなければなりません。

これには、直接inventoryファイルを編集して [nfsserver] というセクションを追加しても大丈夫ですが、下記のように mdxcsv2inventory.py を使用してグループを作成することもできます。

mdxuser@ansible:~/machine-configs$ ./mdxcsv2inventory.py user-portal-vm-info.csv -g nfsserver vm1
[all:vars]
ansible_user=mdxuser
ansible_remote_tmp=/tmp/.ansible
ethipv4prefix=10.13.200.0/21
rdmaipv4prefix=10.141.200.0/21
ethipv6prefix=2001:2f8:1041:21e::/64

[default]
10.13.204.85    hostname=vm1 ethipv4=10.13.204.85    rdmaipv4=10.141.200.147
10.13.204.83    hostname=vm2 ethipv4=10.13.204.83    rdmaipv4=10.141.200.146
10.13.204.89    hostname=vm3 ethipv4=10.13.204.89    rdmaipv4=10.141.204.70
10.13.200.158   hostname=vm4 ethipv4=10.13.200.158   rdmaipv4=10.141.204.63
10.13.204.90    hostname=vm5 ethipv4=10.13.204.90    rdmaipv4=10.141.200.149
10.13.204.87    hostname=vm6 ethipv4=10.13.204.87    rdmaipv4=10.141.200.150
10.13.204.84    hostname=vm7 ethipv4=10.13.204.84    rdmaipv4=10.141.204.64
10.13.204.86    hostname=vm8 ethipv4=10.13.204.86    rdmaipv4=10.141.204.67

[nfsserver]
# group with regexp 'vm1'
10.13.204.85    hostname=vm1 ethipv4=10.13.204.85    rdmaipv4=10.141.200.147

mdxuser@ansible:~/machine-configs$ ./mdxcsv2inventory.py user-portal-vm-info.csv -g nfsserver vm1 > hosts.ini

mdxcsv2inventory.py の -g [GROUPNAME] [VMNAME] オプションを使うことで、指定したVMの所属する任意の名前のホストグループを作成することができます。

なお [VMNAME] の部分は正規表現になっているので、複数のVMが所属するグループを作成することもできます。

[nfsserver] の他にも playbook.yml にあるように、LDAPサーバにするには [ldapserver] グループを、リバースプロキシにするには [reverproxy] グループを上記の手順で作成してください。

あとは playbook.yml 自体を編集して、デプロイしたい環境に合わせて、不必要なRoleの適用箇所をコメントアウトしてください。

例えばubuntu serverを使うのであれば、 desktop_common は必要無いかもしれません。

inventoryの作成と playbook.yml の編集が終わったら、下記のコマンドをすると、Ansibleが全VMに設定を実施します。

mdxuser@ansible:~/machine-configs$ ansible-playbook -i hosts.ini playbook.yml

11.5. machine-configsが提供するRole¶

ここでは、machine-configsに用意されているRoleについて説明します。

11.5.1. common¶

commonは、VMに対してホスト名を設定し、/etc/hostsを設定し、指定したパッケージをインストールします。

ホスト名や/etc/hostsに記載される名前は、inventoryの hostname などの変数のものです。

また vars/common.yml を編集することで、実行時にインストールするパッケージを追加することが出来ます。

11.5.2. desktop_common¶

desktop_commonはxrdpをインストールします。

11.5.3. nfs_server¶

nfs_serverは、VMにNFSサーバをインストールし、/homeをexportします。

このとき、mdxuserのホームディレクトリは/home.local/mdxuserに移動されます。

11.5.4. nfs_client¶

nfs_clientは、VMにNFSをインストールし、NFSサーバから/homeをマウントします。

このとき、mdxuserのホームディレクトリは/home.local/mdxuserに移動されます。

マウントするNFSサーバは、 [nfsserver] グループの先頭にあるVMになります。

11.5.5. ldap_server¶

ldap_serverは、VMをLDAPサーバにし、指定されたグループやユーザを作成します。

LDAPドメインやパスワードなどは、 vars/ldap.yml を編集することで変更できます。

LDAPグループやLDAPユーザを作成するには、 machine-configs/files ディレクトリ配下に ldap_groups.csv と ldap_users.csv というファイルを作成してください。
このCSVファイルのサンプルとして machine-configs/fils ディレクトリに ldap_groups.csv.in と ldap_users.csv.in が用意してあります。
files/README.md を見つつ、作成したいLDAPグループやLDAPユーザを追加してください。

11.5.6. ldap_client¶

ldap_clientは、VMにLDAPをインストールし、LDAPクライアントとしてLDAPサーバを参照するようにします。

参照するLDAPサーバは、 [ldapserver] グループの先頭にあるVMになります。

11.5.7. jupyter¶

jupyterは、jupyter labをインストールし、デーモンプロセスとして実行します。

デーモンプロセスはmdxuserのホームディレクトリにあるvirtualenv環境で起動し、8888番ポートをListenします。

jupyterlabのWeb画面にアクセスする際には、トークンが必要になります。jupyterlabを起動したVMで、 journalctl --no-pager -u jupyterlab を実行すると、jupyterlab起動時のログからトークンつきのURLを取得できます。

11.5.8. reverse_proxy¶

reverse_proxyは、Nginxをインストールし、リバースプロキシとして設定します。

reverse_proxyの動作は、 [default] グループのVMについて、自身の 8000 + n ポートへのアクセスを各VMの8888番ポートに転送します。

jupyter Roleと組み合わせることで、下記のようなクラスタを構築することができます。

                                   User
                                     |
                                     v
                               mdx Global IPv4
                                  Address
                                     |
                                     |
                       +---------+   |
                       |  Nginx  |   |
                       |   (VM)  |   |
                       +----+----+   |
                            |  ^     |
                            |  +-----+
                            |              Ethernet Network (Private Address)
       +--------------------+------------------+------------------+
       |                    |                  |                  |
       v                    v                  v                  v
+--------------+   +--------------+   +--------------+   +--------------+
|  Jupyterlab  |   |  Jupyterlab  |   |  Jupyterlab  |   |  Jupyterlab  |  ...
|     (VM1)    |   |     (VM2)    |   |     (VM3)    |   |     (VM4)    |
+--------------+   +--------------+   +--------------+   +--------------+

mdxでVMに付与されるIPv4アドレスはプライベートアドレスであり、インターネット越しに直接アクセスすることはできません。

そこで reverse_proxy Roleを適用したVMに DNAT を使ってグローバルIPv4アドレスをマッピングすることで、外部から各VMのjupyter labにアクセスすることができるようになります。

DNATをマッピングしたら、ブラウザで http://[DNATのアドレス]:8001 にアクセスすると、上の図のVM1のJupyterlabに、 http://[DNATのアドレス]:8002 にアクセスすれば、VM2のJupyterlabにアクセスすることができます。

なお、各Jupyterlabは認証無しで起動するので、リバースプロキシになるNginxのVMには適切な ACL を設定してください。

vars/reverse_proxy.yml を編集することで、バックエンドになるVMのグループ(デフォルトは [default])やプロキシする先のポート番号(デフォルトは 8888)を変更することができます。

11.5.9. mpi¶

mpiは、/etc/bash.bashrc にOpenMPIへのパスを設定します。

VMにインストールされているOpenMPIは、OFEDと一緒にインストールされたものです。

12. FAQ¶

12.1. ユーザポータル関連¶

12.1.1. 仮想マシンをcloneした際に、clone元とclone先に同じIPアドレスが割り当たってしまうのはなぜでしょうか？¶

一般的に、machine-idが変わらないと、同じIPアドレスが割り当たります。

cloneした際に、machine-idもコピーされるので、その結果、同じIPアドレスが割り当てられてしまうことがあります。

cloneする場合は、以下の手順で実施する必要があります。

cloneの手順

clone元の /etc/machine-id を空にする
clone元をシャットダウン
clone実行

なお、本操作を自動で行う機能については、実装方式を検討しています。機能が実装されるまでは、手動での対応をお願いいたします。

12.1.2. 仮想マシンに設定した公開鍵を修正したい場合はどうすればいいですか？¶

仮想マシンのデプロイ時に設定する公開鍵は後から修正することができません。

公開鍵の修正が必要な場合には、再度仮想マシンのデプロイから実施してください。

12.1.3. DNAT、ACLで何を設定したらよいのか分かりません。¶

ご利用のネットワークによって設定すべき値が変わります。

ここでは一例を説明しますが、ご自身のネットワーク環境の詳細については、ご自身のネットワークの管理者にご確認ください。

仮想マシンをデプロイした場合、デフォルトで「mdxローカルIPアドレス」が割り当てられます。
外部(インターネット)から、仮想マシンにアクセスする際、DNAT設定によって「mdxローカルIPアドレス」を「mdx側のグローバルIPアドレス」に
紐づける必要があります。

「mdxローカルIPアドレス」は、仮想マシンのコントロール画面の右側で確認できます。
デフォルトでは、サービスネットワーク1のIPv4もしくは、IPv6がその値になります。
「mdx側のグローバルIPアドレス」は、プロジェクト申請時の申請値に基づき、予めプロジェクトに割り当てられます。
DNAT設定画面で、以下の値を設定する必要があります。
転送元グローバルIPv4アドレス：「mdx側のグローバルIPアドレス」
セグメント：デフォルトでは変更する必要ありません。
転送先プライベートIPアドレス：「mdxローカルIPアドレス」

DNAT設定によって、グローバルIPアドレスで、仮想マシンにアクセスできるようになりました。
しかし、ACL設定をしない限りは、このグローバルIPアドレスにはアクセスできません。
安全のため、初期状態ではDNATで設定したグローバルIPアドレスには一切の通信を受け付けない設定がなされています。
そこで、ACLを正しく設定し、通信を許可する設定をする必要があります。この設定を誤ると、仮想マシンへの攻撃、侵入などの
セキュリティ被害を受けることになります。必要最低限の通信を許可するように心がけてください。

作成した仮想マシンに、例えばsshしたい場合は、ACL設定画面で以下の値を設定する必要があります。
プロトコル：TCP
Srcアドレス：ご利用のネットワークのIPアドレス、「利用者側のグローバルIPアドレス」を入力してください。
これが分からない場合、ご自身のネットワークの管理者にご確認ください。
SrcPrefix長：サブネットマスクのことを表しています。255.255.255.0の場合は、24になります。
Srcアドレス同様、これが分からない場合、ご自身のネットワークの管理者にご確認ください。
Srcポート：anyをご指定ください。
Dstアドレス：ここには、「mdxローカルIPアドレス」を設定します。「mdx側のグローバルIPアドレス」ではないのでご注意ください。
DstPrefix長：仮想マシンが1台ならば32になります。複数台ある場合は、DstアドレスとDstPrefix長でネットワークを指定するか、
それぞれACLを書くなどしてください。
Dstポート：sshはデフォルトでは22番ポートを使用します。意図的に変えていない限りは22番をご指定ください。

繰り返しになりますが、ACL設定はセキュリティに関わる重要な設定項目です。各利用者のセキュリティ管理は利用者の自己責任となります。

設定の影響を理解した上で十分ご注意の上設定いただくようお願いします。

12.1.4. 短期間に大量の資源量が必要な場合はどう対処すればよいでしょうか。¶

一時的に多くの仮想マシンを立ち上げたい等、一時的に仮想マシンリソースを大量に使用したい場合には、サービスレベルの種別として「スポット仮想マシン」をご利用ください。
なお、スポット仮想マシンの特徴については、7.1.1章記載の スポット仮想マシン をご確認ください。
ただし、スポット仮想マシンではなく起動保証用仮想マシンが必要となる場合には、資源情報の状況を加味して、割り当て可能 (承認する) かどうか判断致しますので、以下の情報を記載の上、問い合わせ窓口 (mdx-help@mdx.jp) までメールでご相談ください。
・プロジェクト名、
・利用期間（2023/01/01 - 2023/01/07）、
・必要な資源量（例：16GPU）、
・使用理由（例：深層学習の学習に大量のGPUが必要なため）
注意）ご希望に添えない場合がありますので、予めご了承ください。

12.1.5. IPアドレスが長く待っても割り当たりません。割り当たっていたものが突然無くなってしまいました。¶

一般的に原因として大きく2つ考えられます。

システム障害で、何らかの理由でIPアドレスが払い出せなくなっている可能性

この場合は、特定の仮想マシンだけではなく全体で問題が発生している場合が多いです。

ほかの仮想マシンでも同様のIPアドレスが払い出されない・表示されていない事象が発生しているかご確認ください。
OSの問題で、IPアドレスが見えなくなっているの可能性

OSのネットワーク設定が不適切だったり、OSがハングアップしてしまっていたりすると、

VMware Toolsが正しく情報を取得できない状態となり、ポータル上でIPアドレスが確認できなくなります。

この場合、OSを再起動していただくか、ネットワークインタフェースの再起動をコンソールより行ってください。

もし、OSの問題でなかった場合は、お手数ですがお問い合わせください。

お問い合わせの際、OSの状態(アクセスできない、再起動直後か等)を付記いただくと、スムーズに調査が始められます。

12.1.6. ISOイメージからOSをインストールする際にストレージを見つけられないエラーが発生しました。¶

本システムでは、ポータルで仮想マシンを作成する場合に、

ハードディスク用のSCSIコントローラとして「VMware Paravirtual SCSI (PVSCSI) adapter」が使用されます。

OSが本アダプタに対応していない場合、インストール先を検出できません。

VMware Paravirtual SCSI (PVSCSI) adapterに対応したOSを利用することをご検討ください。

12.1.7. GPUパックを利用する仮想マシンの新規作成を行いましたが、エラーで仮想マシンの作成に失敗しました。¶

GPUパックを利用する仮想マシンの新規作成（デプロイ）時において、「No available ESXi found.」と出力され、デプロイに失敗する。

仮想マシンは ESXi ホスト上で動作しますが、この ESXi ホストは (GPU の場合、物理ノードとしても) 8 GPU パックを使用する仮想マシンが最大となります。また、運用仕様上、ESXi ホストは複数の利用者様の仮想マシンを同一 ESXi ホスト上で動作する場合があり、 GPUパック数を指定する数によっては、他の利用者様とリソースを分け合う運用となります。そのため、GPUの空き資源の状況により、指定のGPUパック数を満たす環境が無く仮想マシンの作成失敗する場合があります。

仮想マシンの作成に失敗した場合には、指定するGPU パック数について見直しを行い（元の指定数より減らす）、改めて仮想マシンの新規作成（デプロイ）を実施にて確認をお願いします。

なお、一度に最大で利用可能な GPUパック数は、利用状況により変化するためご留意願います。

12.1.8. 仮想マシンのGPUパック数の変更（増加）を行いましたが、エラーで増やすことができません。¶

仮想マシンのGPUパック数の変更（増加）を行った際、操作履歴のメッセージにて

「Faild to execute action. Please contact your administrator.」と出力され、GPUパック数の増加が失敗する。

仮想マシンが動作している(割当たっている) ESXiホスト上に、他の利用者様が使用している仮想マシンが共存している場合があり、
他の利用者様仮想マシンが残りのGPUリソースを使用している場合、要求したGPUリソースを追加で割り当てることができない可能性があります。
仮想マシンの移動操作を行うことで、新たに割当たったESXiホストにてGPUを割り当て（増加）可能になる場合があるため、
以下の操作をお願いいたします。
なお、多数の利用者様がGPU資源を使用しており、全システムで提供できるGPU資源がひっ迫している状況であるため、
一つのESXiホストで複数個のGPUを利用した仮想マシンを作成(利用)する場合、GPU資源の確保ができない場合がありますことをご承知おきください。

仮想マシンの移動手順は以下です。

※仮想マシンの移動操作は、ユーザポータルより実施願います。

ユーザポータル - 仮想マシン - コントロールの画面で対象の仮想マシンを選択します。
(利用者様にて仮想マシンを起動していた場合) 操作アイコンの「ACTION」で表示される一覧より、電源 - シャットダウンを実行します。(OS コマンドによりシャットダウンしても問題ありません)
仮想マシン停止後、同じようにACTIONから、メンテナンス - 仮想マシンの休止を実行します。
仮想マシンの休止完了後、同じようにACTIONから、「ACTION」から、「構成変更」を選択しGPUパック数の変更を実施します。
仮想マシンを起動頂き利用可能となったことをご確認願います。

指定したGPUパック数が確保できた場合、仮想マシンの起動に成功します。
起動に失敗した場合には、資源が割り当たらず休止状態（資源解放状態）のままとなります。
操作結果の確認は、「インフォメーション」-「操作履歴」にて確認できます。

12.1.9. 仮想マシンの電源をオンにしても起動しません。操作履歴のステータスが10%から進まず、シャットダウン操作もできません。¶

仮想マシンに指定した計算資源(CPU/GPU)の空きがなく、資源の解放および割り当てを待っている状態です。
この場合、資源を割り当てるまでに最大で2時間を要する場合があります。
詳しくは 資源確保と強制休止のタイミング をご確認ください。

仮想マシンの起動を待機する場合は、仮想マシンに対する操作を行わずそのままお待ちください。

また、仮想マシンの起動を中断する場合は、[ACTION] > [メンテナンス] > [アロケートのキャンセル] と操作すると、資源の割り当て待ちの状態をキャンセルできます。

12.2. 仮想マシンへの接続関連¶

12.2.1. どうすれば自分の環境から起動中の仮想マシンにsshで接続できますか？¶

作成したマシンにグローバルIPアドレスを割り当て(DNAT設定)、さらに割り当てたアドレスに対して通信の許可設定(ACL設定)をする必要があります。

詳細は、ネットワーク設定をご確認ください。

なお、本設定はセキュリティに関わる重要な設定です。利用者の責任において各設定を行ってください。

12.2.2. デスクトップと仮想マシン間でファイルのやり取りを行うためにはどうすればいいですか？¶

ご自身の環境から仮想マシンへSSHできることをご確認いただいた後、SCPコマンドなどでファイル転送を行ってください。

Windowsの場合、WinSCPなども利用可能です。

12.2.3. 仮想マシンへsshログイン後、一定の時間が経過すると切断されてしまう。対応方法を教えてください。¶

mdxのファイヤーウォールでは、無通信のまま30分以上が経つと切断する設定となっています。

サーバあるいはクライアント側で無通信状態による接続断を防ぐための以下を参考に対応をお願いします。

Windows の場合、SSH クライアント (Putty、TeraTerm 等) で keep-alive 設定を行う。
サーバ側の sshd_config や ssh_config の設定 (ClientAliveInterval、ClientAliveCountMax）を行う。

12.3. 仮想マシン環境設定関連¶

12.3.1. 仮想マシンに静的アドレスを設定したい。¶

仮想マシンに設定されているセグメントに対して提供されているIPアドレス範囲のうち、

ホストアドレスが1～100の範囲のIPアドレスを指定してください。

仮想マシンに設定されているセグメントは、上部メニュー[仮想マシン]をクリックしてメイン画面に表示される仮想マシンの一覧から

任意の仮想マシンを選択し、右のサマリ情報内サービスネットワーク＞セグメントより確認できます。
セグメントに割り振られるIPアドレスの範囲は、上部メニュー[ネットワーク]をクリックしてメイン画面に表示されるセグメントの一覧から

上記で確認したセグメントを選択し、右に表示されるIPアドレス範囲から確認します。

例) IPアドレス範囲に「10.12.120.0/21」と記載されていた場合、

　 IPアドレスは「10.12.120.1」～「10.12.120.100」で指定します。

なお、ネットワークの各種設定は、以下の通りです。

デフォルトゲートウェイアドレス：仮想マシンに設定されているセグメントに対して提供されているIPアドレス範囲のうち、最後から2番目のアドレスになります。

例）IPアドレス範囲に「10.12.120.0/21」と記載されていた場合、10.12.127.254です。
ブロードキャストアドレス：仮想マシンに設定されているセグメントに対して提供されているIPアドレス範囲のうち、最後のアドレスになります。

例）IPアドレス範囲に「10.12.120.0/21」と記載されていた場合、10.12.127.255です。
NTPサーバ：172.16.2.[26,27]をご利用ください。
DNSサーバ：172.16.2.[26,27]をご利用ください。もしくはPubic DNS(例えば、Googleが提供するPublic DNSサーバ 8.8.8.8 など)をご利用ください。

仮想マシンに静的アドレスを設定する際には、仮想マシン上でNetworkManager等を用いて設定ください。

以下はNetworkManagerのnmtuiツールを使った設定方法の一例です。

ユーザポータルの上部メニューから[仮想マシン]をクリックします。
メイン画面で静的アドレスを設定する任意の仮想マシンを選択した状態で[CONSOLE]をクリックします。
仮想マシンのコンソール(もしくはターミナル)上で、nmtuiツールを起動します。
```
$ sudo nmtui
```
[Edit a connection]にカーソルを合わせてEnterキーを押します。
[Wired connection 1]にカーソルを合わせてEnterキーを押します。
[IPv4 CONFIGURATION]右側の[<Automatic>]にカーソルを合わせてEnterキーを押します。
表示される項目のうち[<Manual>]にカーソルを合わせてEnterキーを押します。
[IPv4 CONFIGURATION]右側の[<Show>]にカーソルを合わせてEnterキーを押します。
各項目を選択して上記で決定した設定内容を入力します。なお、[Addresses]にはネットマスクの値を合わせて記載ください(以下入力例)。
入力が完了したら画面下部の[<OK>]にカーソルを合わせてEnterキーを押します。
画面下部の[<Back>]にカーソルを合わせてEnterキーを押します。
[Activate a connection]にカーソルを合わせてEnterキーを押します。
[Wired connection 1]にカーソルを合わせてEnterキーを押し,右側に[<Activate>]と表示されることを確認します。
[Wired connection 1]にカーソルを合わせて再度Enterキーを押し,右側に[<Deactivate>]と表示されることを確認します。
以上で設定は完了です。

また、DNATにてグローバルIPアドレスを設定している場合は、
上記のPublic DNSサーバに対するアクセスができなくなるため、DNSによる名前解決ができなくなります。
DNATとPublic DNSサーバを同時に利用する場合は、ネットワークのACLでPublic DNSサーバに対するアクセス許可ルールを追加してください。

ACLフィルタルール例:

srcアドレス: 8.8.8.8
SrcPrefix長/32
srcポート: 53
Dstアドレス: VMのアドレス
DstPrefix長: 32
Dstポート: any

12.3.2. ストレージネットワーク(PVRDMA)を利用した環境もストレージネットワーク(SR-IOV)の環境と同様なRDMA によるノード間通信環境が構築可能ですか？¶

PVRDMA を利用した環境も RDMA と同等のノード間通信環境が構築可能です。

ただし、PVRDMA で構成した場合と、SR-IOV で構成した場合では以下の通りの機能の差があります。

PVRDMA (準仮想化RDMA):

ノード間の RDMA 通信は可能。ただし、ストレージ (Lustre) は TCP 接続となります。
SR-IOV:

ノード間、ストレージ (Lustre) も含め RDMA による通信となります。

PVRDMA ご利用の際にはストレージ (Lustre 領域) への通信種別に違いがあること、
PVRDMA は準仮想化 RDMA であることから、実際の RDMA 通信に比べ性能が劣るケースもございます。
その点をご留意頂き、PVRDMA 環境のご利用をご検討ください。

12.3.3. GPU仮想マシン上でnvidia-smiを使うとGPU-UtilがN/Aと表示されて利用できないGPUがある。¶

対象のGPUでマルチインスタンスGPU (通称MIG)が有効化されている状態です。

nvidia-smiコマンドを使って、対象GPUのMIGを無効化してください。

GPUの状態を確認 (以下の場合、GPU ID 1でMIGが有効化されているため、通常のGPUとして使用できません（MIGとしては利用可能です）。

mdxuser@ubuntu-2204:~$ nvidia-smi
Mon Jul 10 22:11:43 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.54.03              Driver Version: 535.54.03    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:03:00.0 Off |                    0 |
| N/A   24C    P0              42W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-SXM4-40GB          Off | 00000000:05:00.0 Off |                   On |
| N/A   24C    P0              43W / 400W |      0MiB / 40960MiB |     N/A      Default |
|                                         |                      |              Enabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA A100-SXM4-40GB          Off | 00000000:0D:00.0 Off |                    0 |
| N/A   25C    P0              49W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA A100-SXM4-40GB          Off | 00000000:0F:00.0 Off |                    0 |
| N/A   25C    P0              48W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| MIG devices:                                                                          |
+------------------+--------------------------------+-----------+-----------------------+
| GPU  GI  CI  MIG |                   Memory-Usage |        Vol|      Shared           |
|      ID  ID  Dev |                     BAR1-Usage | SM     Unc| CE ENC DEC OFA JPG    |
|                  |                                |        ECC|                       |
|==================+================================+===========+=======================|
|  No MIG devices found                                                                 |
+---------------------------------------------------------------------------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

MIGは sudo nvidia-smi -i <GPU ID> -mig 0 で無効化できます。無効化すると以下の通り、MIG devices: の表示が消え、GPU-UtilがN/Aから0%になります。

mdxuser@ubuntu-2204:~$ sudo nvidia-smi -i 1 -mig 0
Disabled MIG Mode for GPU 00000000:05:00.0
All done.

mdxuser@ubuntu-2204:~$ sudo nvidia-smi
Mon Jul 10 22:15:43 2023
+---------------------------------------------------------------------------------------+
| NVIDIA-SMI 535.54.03              Driver Version: 535.54.03    CUDA Version: 12.2     |
|-----------------------------------------+----------------------+----------------------+
| GPU  Name                 Persistence-M | Bus-Id        Disp.A | Volatile Uncorr. ECC |
| Fan  Temp   Perf          Pwr:Usage/Cap |         Memory-Usage | GPU-Util  Compute M. |
|                                         |                      |               MIG M. |
|=========================================+======================+======================|
|   0  NVIDIA A100-SXM4-40GB          Off | 00000000:03:00.0 Off |                    0 |
| N/A   24C    P0              42W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   1  NVIDIA A100-SXM4-40GB          Off | 00000000:05:00.0 Off |                    0 |
| N/A   24C    P0              42W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   2  NVIDIA A100-SXM4-40GB          Off | 00000000:0D:00.0 Off |                    0 |
| N/A   25C    P0              49W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+
|   3  NVIDIA A100-SXM4-40GB          Off | 00000000:0F:00.0 Off |                    0 |
| N/A   25C    P0              48W / 400W |      4MiB / 40960MiB |      0%      Default |
|                                         |                      |             Disabled |
+-----------------------------------------+----------------------+----------------------+

+---------------------------------------------------------------------------------------+
| Processes:                                                                            |
|  GPU   GI   CI        PID   Type   Process name                            GPU Memory |
|        ID   ID                                                             Usage      |
|=======================================================================================|
|  No running processes found                                                           |
+---------------------------------------------------------------------------------------+

12.3.4. 仮想マシンにインストールされたOS (ゲストOS)のrootパスワードを設定したい。¶

ゲストOSのrootパスワードは一般ユーザでログイン後、以下の手順で設定可能です。

(base) mdxuser@ubuntu-2204:~$ sudo -s
root@ubuntu-2204:/home/mdxuser# passwd
Changing password for user root.
New password: [新しいパスワードを入力]
Retype new password: [新しいパスワードを再入力]
passwd: all authentication tokens updated successfully.

パスワードは推測されにくい安全なパスワードで設定し、適切に管理・不正利用の防止に努めるようにしてください。

12.3.5. 仮想マシン (Windows OS)にVMware Tools をインストールしたい。¶

仮想マシンを起動後、Windows用 VMware ToolsのISOイメージを以下のURLより入手いただき、ISOイメージをマウント後、画面の指示に従いインストールしてください。

※インストール完了後、再起動のメッセージが出力されるので「はい」をクリックし実施願います。

ダウンロード先URL：http://172.16.2.26/

アクセス先の「VMwareTools for Windows」より、記載のISOイメージ (VMwareTools_Windows.iso)をダウンロード

12.4. 各種ストレージ利用関連¶

12.4.1. 高速内部ストレージ、大容量ストレージの利用可能な容量はどこで確認できますか？¶

高速内部ストレージ、大容量ストレージの利用可能な容量を確認するをご確認ください。

12.4.2. dfで高速内部ストレージ、大容量ストレージの使用量/上限値を確認しましたが、正しく表示されていません。¶

高速内部ストレージ、大容量ストレージは、ファイルシステムとしてlustreを採用しています。

よって、dfでは個人の利用可能なディスク容量は確認できません。

確認方法については、高速内部ストレージ、大容量ストレージの利用可能な容量を確認するをご確認ください。

12.4.3. 仮想マシンは起動したのですが、Lustre領域(/fast、/large)のマウントに失敗する場合は、どう対処すればよいでしょうか。¶

ofed 及び lustre のカーネルモジュールの再作成することで、この問題は解決できます。

以下の手順でカーネルモジュールの再作成を行い、lustre 領域が mount されるかご確認下さい。
mlnx-ofed-kernelや、lustre-client-modulesのバージョンは、ご利用の環境に合わせたバージョンを指定願います。
バージョン確認方法として、「dkms status」を実行いただき、「mlnx-ofed-kernel」や「lustre-client-modules」の項目列で確認したバージョンを指定し実行願います。
バージョン指定例：
・mlnx-ofed-kernel："5.8" など
・lustre-client-modules："2.12.9-ddn26" など

build された ofed モジュールをアンインストールする

$ sudo dkms uninstall -m mlnx-ofed-kernel -v [VERSION] -k $(uname -r)

ofed モジュールのソースを削除

$ sudo dkms remove -m mlnx-ofed-kernel -v [VERSION] -k $(uname -r)

ofed モジュールのソースをコンパイル

$ sudo dkms build -m mlnx-ofed-kernel -v [VERSION] -k $(uname -r)

build されたofed モジュールをインストール

$ sudo dkms install -m mlnx-ofed-kernel -v [VERSION] -k $(uname -r)

build された lustre_client モジュールをアンインストール

$ sudo dkms uninstall -m lustre-client-modules -v [VERSION] -k $(uname -r)

lustre_client モジュールのソースを削除

$ sudo dkms remove -m lustre-client-modules -v [VERSION] -k $(uname -r)

ofa_kernel_headersのシンボリックリンク先を現在のカーネルリリース情報に置き換える
```
$ sudo update-alternatives --set ofa_kernel_headers /usr/src/ofa_kernel/x86_64/$(uname -r)
```

lustre_client モジュールのソースをコンパイル

$ sudo dkms build -m lustre-client-modules -v [VERSION] -k $(uname -r)

build されたlustre_client モジュールをインストール

$ sudo dkms install -m lustre-client-modules -v [VERSION] -k $(uname -r)

仮想マシンの再起動

1回の再起動で、立ち上がらない等ありました場合には、少し時間を空け数回再起動を行い状況を確認願います。
```
$ sudo reboot
```

12.4.4. bucket全体をまとめて公開する方法を教えてください。¶

bucket 配下の公開/非公開をまとめて行う場合の手順は以下となります。

各bucket用のポリシーを作成する。

Version, Principalは以下の例と同じ値を指定します。
Sidには任意のポリシー名を指定します。
Resourceには公開するbucket名を指定します。

例: (ファイル名：bucket_list.json)

{
    "Version": "2008-10-17",
    "Statement": [
      {
            "Sid": "bucket_list",
            "Effect": "Allow",
            "Principal": {
                   "DDN": ["*"]
            },
            "Action": [
                    "s3:ListBucket",
                    "s3:GetObject"
            ],
            "Resource": "bucket_list"
      }
    ]
}

作成したポリシーを対象のbucketに適用する。

$ s3cmd --no-check-certificate setpolicy bucket_list.json s3://bucket_list

オブジェクトが公開されていることを確認する。

"https://s3ds.mdx.jp/bucket_list/<オブジェクト名>"

以上で公開設定完了。

なお、非公開設定をする場合には、ポリシーのファイル内の「"Effect": "Allow"」を

「"Effect": "Deny"」に変更し、ポリシーの適用を実施する。

12.5. 仮想マシントラブル関連¶

12.5.1. 仮想マシンが不安定になりました。障害でしょうか。¶

一般的に仮想マシンが不安定になった場合、OSの問題である可能性が高いです。
以下のログをご確認ください。また、エラー等のログが確認できた場合は、復旧作業を行うなどの必要な対応を行ってください。
・/var/log/kern.log
・/var/log/syslog
・/var/log/kern.log
・/var/log/messages
・/var/log/dmesg
それでも解決しない場合、お手数ですがお問い合わせください。
なお、利用者が立ち上げた仮想マシンの動作環境 (OS の状態等) については mdx 管理者から確認できない事象も多くあり、
解決できない、解決までに時間を要する場合がありますので、予めご承知おき頂きますようお願いいたします。

12.5.2. 仮想マシン上にて特定のGPUを使用すると「CUDA error: uncorrectable ECC error encountered」というメッセージが出力する。¶

仮想マシン上にて特定のGPUを使用した際「CUDA error: uncorrectable ECC error encountered」

というメッセージが出力した場合、以下の対処をお願いいたします。

エラーカウントの確認のため、以下のコマンドを実行します。

いずれかのGPUにて下記★印に示す値が"0"より大きい値になっているか確認します。

# nvidia-smi -q -d ECC
...

GPU 00000000:05:00.0
    Ecc Mode
        Current                           : Enabled
        Pending                           : Enabled
    ECC Errors
        Volatile
            SRAM Correctable              : 0
            SRAM Uncorrectable            : 0
            DRAM Correctable              : 9    ★
            DRAM Uncorrectable            : 11   ★
        Aggregate
            SRAM Correctable              : 0
            SRAM Uncorrectable            : 0
            DRAM Correctable              : 9
            DRAM Uncorrectable            : 11

上記で"0"より大きい値を確認した場合、対象のGPUにて"Uncorrectable Error"のカウント数を

以下のコマンドにて確認します。
```
# nvidia-smi -q -i <GPUNo>
```
<GPUNo>は、 nvidia-smi -q -d ECC の実行結果で対象のGPUが何番目に表示されたかを数字で指定します。

指定する数字は表示されたGPU順に、0、1、2...です。

例えば、 nvidia-smi -q -d ECC を実行して2番目に表示されたGPUを確認する場合、<GPUNo>には1を指定します。
```
# nvidia-smi -q -i 1
...

   Remapped Rows
       Correctable Error                 : 0
       Uncorrectable Error               : 2    ★
       Pending                           : No
       Remapping Failure Occurred        : No
```
実行結果から、"Remapped Rows"項目の"Uncorrectable Error"の値が"8"より小さい場合は、

以下のコマンドにてGPUデバイスの再起動をお願いいたします。
```
# nvidia-smi -r
```

GPUデバイス再起動後に、再度以下のコマンドで、★印のエラーカウントの値が"0"となっているか、ご確認ください。

# nvidia-smi -q -d ECC -i 1
...

GPU 00000000:05:00.0
    Ecc Mode
        Current                           : Enabled
        Pending                           : Enabled
    ECC Errors
        Volatile
            SRAM Correctable              : 0
            SRAM Uncorrectable            : 0
            DRAM Correctable              : 0    ★
            DRAM Uncorrectable            : 0    ★
        Aggregate
            SRAM Correctable              : 0
            SRAM Uncorrectable            : 0
            DRAM Correctable              : 9
            DRAM Uncorrectable            : 11

なお、2. の実行結果が"8"以上の数字の場合には、お手数ですが、

以下2点の実行結果をmdx問い合わせ窓口までご連絡のほど、よろしくお願いいたします。

「nvidia-smi -q -i <GPUNo>」の実行結果
「nvidia-smi -q -i <GPUNo> | grep -e "Serial Number" -e "GPU UUID"」の実行結果

13. Tips¶

下記の操作例はあくまで参考情報となりますので、利用者ご自身の責任でご確認ください。

13.1. 仮想マシンの仮想ディスク容量を追加する場合の手順¶

注：本操作の設定値に誤りがあった場合には仮想マシン上のデータが削除されてしまうおそれがありますので、利用者ご自身の責任で実施ください。

プロジェクト内で作成した仮想マシンについて、コントロール機能により仮想ディスク容量を追加した場合、

実際に追加分の仮想ディスク容量を使うためには、仮想マシン上での操作が必要となります。

ここではLVM（logical volume manager）の機能を利用した、仮想マシン上で追加した仮想ディスク容量を利用するための設定手順を説明します。

fdisk：新しいパーティションを作成する

fdiskを対話モードで開く

[root@localhost user]# fdisk /dev/sda

pを入力して、現在のパーティションテーブルを確認する

Command (m for help): p
Disk /dev/sda: 9.8 TiB, 10737418240000 bytes,    20971520000 sectors
...
Device       Start      End  Sectors  Size Type
/dev/sda1     2048  1230847  1228800  600M EFI System
/dev/sda2  1230848  3327999  2097152    1G Linux    filesystem
/dev/sda3  3328000 83884031 80556032 38.4G Linux LVM

nを入力して、新しいパーティションを作成する

Command (m for help): n
Partition number (4-128, default 4):
First sector (83884032-20971519966, default 83884032):
Last sector, +sectors or +size{K,M,G,T,P}    (83884032-20971519966, default 20971519966):

Created a new partition 4 of type 'Linux filesystem'    and of size 9.7 TiB.

再度pを入力して、作成したパーティションが追加されていることを確認する

Command (m for help): p
Disk /dev/sda: 9.8 TiB, 10737418240000 bytes,    20971520000 sectors
...
Device        Start         End     Sectors  Size Type
/dev/sda1      2048     1230847     1228800  600M EFI    System
/dev/sda2   1230848     3327999     2097152    1G    Linux filesystem
/dev/sda3   3328000    83884031    80556032 38.4G    Linux LVM
/dev/sda4  83884032 20971519966 20887635935  9.7T    Linux filesystem

LVMパーティションのタイプを'Linux LVM'に指定するため、l を入力して、パーティションのタイプ一覧を表示する

Command (m for help): l
  1 EFI System                        C12A7328-F81F-11D2-BA4B-00A0C93EC93B
  2 MBR partition scheme              024DEE41-33E7-11D3-9D69-0008C781F39F
  ...
  31 Linux LVM                         E6D6D379-F507-44C2-A23C-238F2A3DF928

tを入力して、新しいパーティションのタイプを指定する

Command (m for help): t
Partition number (1-4, default 4):
Partition type (type L to list all types): 31

Changed type of partition 'Linux filesystem' to    'Linux LVM'.

wを入力して、設定を保存しfdiskの対話モードを終了する

Command (m for help): w
The partition table has been altered.
Syncing disks.

pvcreate：物理ボリュームを作成する

pvcreateコマンドで、物理ボリュームを作成する

[root@localhost user]# pvcreate /dev/sda4
  Physical volume "/dev/sda4" successfully created.

pvdisplyコマンドで、物理ボリュームが追加されていることを確認する

[root@localhost user]# pvdisplay
 ...
  "/dev/sda4" is a new physical volume of "<9.73 TiB"
  --- NEW Physical volume ---
  PV Name               /dev/sda4
  VG Name
  PV Size               <9.73 TiB
  Allocatable           NO
  PE Size               0
  Total PE              0
  Free PE               0
  Allocated PE          0
  PV UUID               YuRMxQ-sLTN-fgNl-M1nB-kzE3-VOX9-pGq

vgextend：現在のボリュームグループに、作成した物理ボリュームを追加し拡張する

vgdisplayコマンドで、現在のボリュームグループを確認する

[root@localhost user]# vgdisplay
  --- Volume group ---
  VG Name               cl
  ...
  Cur PV                1
  Act PV                1
  VG Size               38.41 GiB
  PE Size               4.00 MiB
  Total PE              9833
  Alloc PE / Size       9833 / 38.41 GiB
  Free  PE / Size       0 / 0
  VG UUID               6sMb7k-xEuU-HLwu-32cS-tDJn-OLk0-YVpvEP

vgextendコマンドで、ボリュームグループに物理ボリュームを追加する

[root@localhost user]# vgextend cl /dev/sda4
  Volume group "cl" successfully extended

vgdisplayコマンドで、ボリュームグループが拡張されていることを確認する

[root@localhost user]# vgdisplay
  --- Volume group ---
  VG Name               cl
  ...
  Cur PV                2
  Act PV                2
  VG Size               9.76 TiB
  PE Size               4.00 MiB
  Total PE              2559592
  Alloc PE / Size       9833 / 38.41 GiB
  Free  PE / Size       2549759 / <9.73 TiB
  VG UUID               6sMb7k-xEuU-HLwu-32cS-tDJn-OLk0-YVpvEP

lvextend：ボリュームグループ拡張に伴い論理ボリュームのサイズを拡張する

lvdisplayコマンドで、現在の論理ボリュームを確認する

[root@localhost user]# lvdisplay
  --- Logical volume ---
  LV Path                /dev/cl/swap
  ...
  --- Logical volume ---
  LV Path                /dev/cl/root
  LV Name                root
  VG Name                cl
  LV UUID                0HUU49-A9Nh-HC8a-Fv9P-4oZY-ObZy-WZ0vj6
  LV Write Access        read/write
  LV Creation host, time localhost.localdomain, 2021-03-05 13:04:26 +0900
  LV Status              available
  # open                 1
  LV Size                34.41 GiB
  Current LE             8809
  Segments               1
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     8192
  Block device           253:0

lvextendコマンドで、ボリュームグループのサイズに合わせて論理ボリュームを拡張する

[root@localhost user]# lvextend -l +100%FREE /dev/cl/root
  Size of logical volume cl/root changed from 34.41 GiB (8809 extents) to 9.76 TiB (2558568 extents).
  Logical volume cl/root successfully resized.

lvdisplayコマンドで、論理ボリュームが拡張されていることを確認する

[root@localhost user]# lvdisplay
  --- Logical volume ---
  LV Path                /dev/cl/swap
  ...
  --- Logical volume ---
  LV Path                /dev/cl/root
  LV Name                root
  VG Name                cl
  LV UUID                0HUU49-A9Nh-HC8a-Fv9P-4oZY-ObZy-WZ0vj6
  LV Write Access        read/write
  LV Creation host, time localhost.localdomain, 2021-03-05 13:04:26 +0900
  LV Status              available
  # open                 1
  LV Size                9.76 TiB
  Current LE             2558568
  Segments               2
  Allocation             inherit
  Read ahead sectors     auto
  - currently set to     8192
  Block device           253:0

xfs_growfs：XFS ファイルシステムを拡張する

xfs_growfsコマンドで、マウントしたまま XFSファイルシステムを拡張する

[root@localhost user]# xfs_growfs /
meta-data=/dev/mapper/cl-root    isize=512    agcount=4, agsize=2255104 blks
         =                       sectsz=512   attr=2, projid32bit=1
         =                       crc=1        finobt=1, sparse=1, rmapbt=0
         =                       reflink=1
data     =                       bsize=4096   blocks=9020416, imaxpct=25
         =                       sunit=0      swidth=0 blks
naming   =version 2              bsize=4096   ascii-ci=0, ftype=1
log      =internal log           bsize=4096   blocks=4404, version=2
         =                       sectsz=512   sunit=0 blks, lazy-count=1
realtime =none                   extsz=4096   blocks=0, rtextents=0
data blocks changed from 9020416 to 2619973632

以上で、仮想マシンの仮想ディスク容量の追加は完了となります。

13.2. 仮想マシンのディレクトリを手元マシンにマウントする¶

rcloneやsshfsを使うことで、手元マシンにssh接続先の仮想マシンのディレクトリをマウントできます。

ここでは、rcloneを使って、手元ubuntuマシンからmdx上のubuntu仮想マシンのディレクトリをマウントする方法を記載します。本手法は、mdx上の仮想マシンから、ssh先の他サーバのディレクトリをマウントする際にも利用できます。

rcloneクライアントは、linuxだけではなく、macやwindowsに対応しています。詳しくは、公式サイトを確認してください。

rcloneのインストール

https://rclone.org/install/ に従ってrcloneをインストールしてください。

aptを使ってインストールした場合は、rcloneのバージョンが古い可能性があるため、後述する自動起動が動作しない可能性があります。 OS起動時にrcloneを自動マウントしたい場合は、rclone公式サイトから最新版をインストールしてください。

最新版のインストール例:
```
# curl https://rclone.org/install.sh | sudo bash
```
aptを使ったインストール例:
```
$ sudo apt install rclone
```
rcloneの設定

rclone config コマンドを使って対話形式で設定するか、もしくは、~/.config/rclone/rclone.conf を編集して仮想マシンを設定します。利用する通信方式は、 SFTP を選択してください。詳しくは、公式サイトの SFTPのページを確認してください。

~/.config/rclone/rclone.conf の設定例:
```
[mdx0]
type = sftp
host = [2001:XXX:XXX:XXX::XXX]
user = <user_id>
key_file = <ssh_key>
```
rcloneを実行

手元マシンの ~/mnt/mdx0 にmdx上の仮想マシンのディレクトリがマウントされます。
```
$ mkdir -p ~/mnt/mdx0
$ rclone mount mdx0: mnt/mdx0
```
自動起動の設定

手元マシンがLinuxの場合は、systemdを使うことでOS起動時にマウントすることが可能です。本機能を利用したい場合は、最新版のrcloneを使用してください。

はじめに、mount.rclone がインストールされていない場合は、コマンドを作成します。
```
$ sudo ln -s /usr/bin/rclone /sbin/mount.rclone
```
本設定例では、手元マシンの/mntディレクトリに仮想マシンのディレクトリをマウントします。

systemdのファイル名には命名規則があるため、/mnt/dataディレクトリにマウントする際は、ファイル名を mnt-data.mountに変更してください。また config=/home/user/ ... の箇所は、自身の設定ファイルのPATHに変更してください。

/etc/systemd/system/mnt.mount の設定例:
```
[Install]
WantedBy=multi-user.target
[Unit]
After=network-online.target
[Mount]
Type=rclone
What=mdx0:
Where=/mnt
Options=rw,allow_other,args2env,vfs-cache-mode=writes,config=/home/user/.config/rclone/rclone.conf,cache-dir=/var/rclone
```
最後にdaemonを起動します。
```
$ sudo systemctl enable mnt.mount
$ sudo systemctl start mnt.mount
```
手元マシンの /mnt にmdx上の仮想マシンのディレクトリがマウントされます。

13.3. オブジェクトストレージの利用方法例¶

オブジェクトストレージが提供するS3データサービスは「s3cmd」「AWS CLI」など専用のクライアントツールを使うことでアクセス・利用することができます。
本稿では仮想マシン上でオブジェクトストレージを操作する方法の一例として、「s3cmd」の使い方の一部を記載します。
こちらのマニュアル の内容と合わせてご確認ください。

13.3.1. 前提・ユーザポータルでの申請¶

ストレージの利用状況の確認および追加ストレージの申請に記載の手順でオブジェクトストレージを申請します。

承認されると、アクセスキー・秘密鍵・UUIDの3点を入手できます。

13.3.2. s3cmdの利用方法¶

s3cmdの導入

s3cmdを仮想マシンにインストールします。インストール方法はOSによって異なります。
```
(For ubuntu)
$ sudo apt install s3cmd
```

初期設定を行う

s3cmdの初期設定を行います。★印の箇所は以下の内容を記載のうえEnterを入力します。それ以外の箇所はEnterのみ入力します。

Access Key: オブジェクトストレージ利用申請の承認時に入手したアクセスキーを入力
Secret Key: オブジェクトストレージ利用申請の承認時に入手した秘密鍵を入力
Default Region [US]: 「us-east-1」を入力
S3 Endpoint [s3.amazonaws.com]: 「s3ds.mdx.jp」を入力
Save settings? [y/N]: 「y」を入力

$ s3cmd --configure
...
Access key and Secret key are your identifiers for Amazon S3. Leave them empty for using the env variables.
Access Key: ★
Secret Key: ★
Default Region [US]: ★

Use "s3.amazonaws.com" for S3 Endpoint and not modify it to the target Amazon S3.
S3 Endpoint [s3.amazonaws.com]: ★

Use "%(bucket)s.s3.amazonaws.com" to the target Amazon S3. "%(bucket)s" and "%(location)s" vars can be used
if the target S3 system supports dns based buckets.
DNS-style bucket+hostname:port template for accessing a bucket [%(bucket)s.s3.amazonaws.com]: ★s3ds.mdx.jp

Encryption password:
Path to GPG program [/usr/bin/gpg]:
Use HTTPS protocol [Yes]:
HTTP Proxy server name:

Test access with supplied credentials? [Y/n]
Please wait, attempting to list all buckets...
Success. Your access key and secret key worked fine :-)

Now verifying that encryption works...
Not configured. Never mind.
Save settings? [y/N] ★

各種操作を行う
- バケットの作成
```
$ s3cmd mb s3://<Bucket Name>
```
- バケットの削除
```
$ s3cmd rb s3://<Bucket Name>
```
- バケット一覧を確認する
```
$ s3cmd ls
```
- バケット上にファイルをアップロードする
```
$ s3cmd put <File Name> s3://<Bucket Name>
```
- バケット上のオブジェクトをダウンロードする
```
$ s3cmd get s3://<Bucket Name>/<Object Name>
```
- バケット上のオブジェクトを削除する
```
$ s3cmd del s3://<Bucket Name>/<Object Name>
```
- バケット上のオブジェクト一覧を確認する
```
$ s3cmd ls s3://<Bucket Name>
```
- すべてのバケット上のオブジェクトを確認する
```
$ s3cmd la
```
- オブジェクトをパブリック公開する
```
$ s3cmd setacl --acl-public s3://<Bucket Name>/<Object Name>
```
  公開した場合、ブラウザなどで以下のURLからアクセス可能となります。
  - 仮想ホスト形式: https://<Bucket Name>.s3ds.mdx.jp/<Object Key Name>
  - パス形式: https://s3ds.mdx.jp/<Bucket Name>/<Object Key Name>
- バケット内のすべてのオブジェクトをパブリックに公開する
```
$ s3cmd setacl -r --acl-public s3://<Bucket Name>
```
- オブジェクトを非公開にする
```
$ s3cmd setacl --acl-private s3://<Bucket Name>/<Object Key Name>
```
  バケット内のすべてのオブジェクトを公開/非公開にする場合、バケットに直接ポリシーの設定を行うこともできます。
  
  ※オブジェクト数が非常に多い場合に有効です
  
  実施方法は FAQのバケット一括公開手順をご確認ください。

13.3.3. バケット作成時の注意点¶

バケット名について以下の制約があります。

バケット名はmdx内で一意である必要があります。そのため、単純な名前を指定すると重複により使えない可能性があります。
バケット名の文字数および使用できる文字種についてアクセス形式ごとの制約があります。クライアントツールによっては、

アクセス形式を選択できない場合もあるので、仮想ホスト形式の制約に従いバケット名を決定することを推奨します。
- 仮想ホスト形式
  - 文字数：3～63文字
  - 使用できる文字種：アルファベット小文字(a-z)、数字(0-9)、ピリオド(.)、ハイフン(-)
- パス形式
  - 文字数：3～255文字
  - 使用できる文字種：アルファベット大小文字(a-zA-Z)、数字(0-9)、ピリオド(.)、ハイフン(-)、アンダーバー(_)
使用するクライアントツールの仕様により制約に違反した名前のバケットを作成出来てしまう場合がありますが、

その場合は意図しない動作になる可能性がありますのでご注意ください。

13.3.4. アクセスキーごとにバケット配下のアクセスを制御する¶

バケット配下をアクセスキー単位で制御することができます。

アクセスキーを追加する手順は、オブジェクトストレージにアクセスするためのキーの確認・追加を行うを参照してください。

bucket用のポリシーを作成する。

Versionは以下の例と同じ値を指定します。
Sidには任意のポリシー名を指定します。
<Access Key UUID> には、ユーザポータルで取得したアクセスキーのUUIDを指定します。

複数のUUIDをカンマ区切りで指定することも可能です。
Resourceには公開するbucket名を指定します。

例1: バケット全体への書き込み権限を設定する場合

{
    "Version": "2008-10-17",
    "Statement": [
      {
            "Sid": "bucket_acl",
            "Effect": "Allow",
            "Principal": {
                   "DDN": [
                           "<Access Key UUID>",
                           ...
                          ],
            },
            "Action": [
                    "s3:ListBucket",
                    "s3:PutObject",
                    "s3:GetObject",
                    "s3:DeleteObject"
            ],
            "Resource": "bucket_acl"
      }
    ]
}

例2: バケット全体への読み取りのみの権限を設定する場合

{
    "Version": "2008-10-17",
    "Statement": [
      {
            "Sid": "bucket_acl",
            "Effect": "Allow",
            "Principal": {
                   "DDN": [
                           "<Access Key UUID>",
                           ...
                          ],
            },
            "Action": [
                    "s3:ListBucket",
                    "s3:GetObject",
            ],
            "Resource": "bucket_acl"
      }
    ]
}

作成したポリシーを対象のbucketに適用する。

$ s3cmd --no-check-certificate setpolicy <File Name> s3://<Bucket Name>

以上で公開設定完了。

なお、非公開設定をする場合には、ポリシーのファイル内の「"Effect": "Allow"」を

「"Effect": "Deny"」に変更し、ポリシーの適用を実施する。

13.4. Jupyter環境の構築例¶

13.4.1. 準備¶

本コンテンツには次の準備が必要です。

mdxのプロジェクト申請、仮想マシンの起動、ネットワークの設定、仮想マシンへのアクセス(利用の流れ (quick start))
mdxから提供される Ubuntu VM Template
PythonとPython用パッケージツール (ここでは pip を例として利用) の準備
$ sudo apt-get install python, pip

13.4.2. Jupyterとその概要¶

mdxのようなリモート環境へのアクセスはsshなどを使って行うことが多いですが、データ可視化やプログラムの編集即実行などといったインタラクティブな操作には不向きです。

ここでは、Webベースのインタラクティブなソフトウエア開発環境である Jupyter についてmdx上への構築方法を紹介します。

Jupyter環境の構築は、利用人数とリソースの規模によって異なります。
例えば、1人1VMを専有する場合は JupyterLab のみのインストールで十分ですが、複数人で利用する場合はユーザー管理などを含んだ JupyterHub が必要です。
利用人数がさらに多いプロジェクトには JupyterHub に加え Kubernetes  を導入し分散環境を用意する必要があります。
まとめると以下のようになります。

利用人数	ツール	mdx VM 環境	方法
1人での利用	JupyterLab	1 VMのStandaone環境	JupyterLabのインストール方法
少人数での利用	JupyterHub	1 VMのStandaone環境	Standaone環境へのJupyterHubインストール方法 (TLJH)
大人数での利用	JupyterHub + Kubernetes	複数VMの分散環境	分散環境へのJupyterHubインストール方法 (JupyterHub + Kubernetes)

以下それぞれの構築方法を説明します。mdxで提供されるUbuntu VM Templateでの例になります。

13.4.3. JupyterLabのインストール方法¶

JupyterLabをインストールし立ち上げます。

$ pip install jupyterlab
$ jupyter-lab --no-browser
...
...
[I 2022-10-13 15:13:18.516 ServerApp] Jupyter Server 1.18.0 is running at:
[I 2022-10-13 15:13:18.516 ServerApp] http://localhost:8888/lab?token=XXXXXXXX
[I 2022-10-13 15:13:18.516 ServerApp]  or http://127.0.0.1:8888/lab?token=XXXXXXXX
[I 2022-10-13 15:13:18.516 ServerApp] Use Control-C to stop this server and shut down all kernels (twice to skip confirmation).
[C 2022-10-13 15:13:18.520 ServerApp]

To access the server, open this file in a browser:
        file:///home/mdxuser/.local/share/jupyter/runtime/jpserver-2356389-open.html
Or copy and paste one of these URLs:
        http://localhost:8888/lab?token=XXXXXXX
or http://127.0.0.1:8888/lab?token=XXXXXXX

これで、JupyterLabのサーバーが立ち上がりました。例えば、SSH Port Forward などを利用して手元のブラウザからアクセスできようになります。

$ ssh -N -L 8888:localhost:8888 mdxuser@<Global IP>

上記のコマンドについて<Global IP>をmdxの仮想マシンと紐づいたグローバルIPアドレスに置き換えて実行すれば、

手元環境のブラウザにて上のtoken付きURL http://localhost:8888/lab?token=XXXXXXX からアクセスできます。

例は最小構成のJupyter Labです。より進んだ利用方法は公式のDocsを参照してください。

JupyterLab Documentation

13.4.4. Standaone環境へのJupyterHubインストール方法 (TLJH)¶

13.4.4.1. JupyterHub (TLJH distribution) のインストール¶

JupyterHubの最小構成版であるTLJHをインストールします。(Admin User名 jupyter-admin は任意)

$ curl -L https://tljh.jupyter.org/bootstrap.py | sudo -E python3 - --admin jupyter-admin
...
...
Existing TLJH installation not detected, installing...
Setting up hub environment...
Installing Python, venv, pip, and git via apt-get...
Setting up virtual environment at /opt/tljh/hub
Upgrading pip...
Installing TLJH installer...
Running TLJH installer...
Setting up admin users
Granting passwordless sudo to JupyterHub admins...
Setting up user environment...
Downloading & setting up user environment...
Setting up JupyterHub...
Downloading traefik 1.7.33...
Created symlink /etc/systemd/system/multi-user.target.wants/jupyterhub.service → /etc/systemd/system/jupyterhub.service.
Created symlink /etc/systemd/system/multi-user.target.wants/traefik.service → /etc/systemd/system/traefik.service.
Waiting for JupyterHub to come up (1/20 tries)
Done!

これで、TLJHがインストールと立ち上げができました。

設定したmdxサーバーのGlobal IP を使って、手元のブラウザから http://mdx-global-ip にてアクセスできます。

警告

本設定 (IPアドレスをそのまま利用する方法) はhttpを利用するため安全性にリスクがあります。ファイアウォールなどを利用し、信頼されるネットワーク内のみ（たとえば組織内のみ）にアクセスを制限することを推奨します。

もしくは、httpsの設定を行い安全性のある通信を利用します (Enable HTTPS) 。https対応にはドメイン名の取得が別途必要です。

次に新しいユーザーを追加します。

ログインしたJupyterHub の Control Panel > Admin より、ユーザー管理画面に移動します。

Add Users にて新しいユーザーを追加できます

13.4.4.2. Lustreディレクトリへのホームディレクトリからのデフォルトリンク¶

複数ユーザーにてJupyterHubを利用する場合、大規模データの扱いやユーザー間でのデータ共有方法が問題となりますが、mdxのLustreのディレクトリ ( /fast や /large ) をJupyterHubからリンクし、共有ディレクトリを作成することですることで問題の解決が可能です。
JupyterHubでの共有ディレクトリは新規ユーザー作成時の設定を変更することで実現します。
まず、/fast 下に共有用ディレクトリ /fast/shared を作成し、全ユーザーからReadアクセス可能にします。(Lustreディレクトリ /fast や /large の設定方法は 高速内部ストレージ、大容量ストレージをマウントする を参照ください。)

$ sudo mkdir /fast/shared
$ sudo chown root:jupyterhub-users /fast/shared
$ sudo chmod 1777 /fast/shared
$ sudo chmod g+s /fast/shared

次に、 /etc/skel を編集し新規ユーザー作成時に /fast/shared をリンクするように設定します。

$ sudo ln -s /fast/shared /etc/skel/fast_shared

これで、新規ユーザー作成時に共有ディレクトリへのリンク ~/fast_shared が生成されるようになりました。
~/fast_shared 下のデータはLustreへ保存されるため、大規模データの扱いが可能です。
また、/large へのリンクも同様の方法です。

13.4.4.3. JupyterLab Interfaceの利用¶

TLJHはデフォルトではJupyterNotebookインターフェースですが、よりリッチな機能をもつJupyterLabへ切り替えが以下のコマンドで可能です。

$ sudo tljh-config set user_environment.default_app jupyterlab
$ sudo tljh-config reload hub

より進んだ利用方法は公式のTLJH Docsを参照してください。TLJH Installing on your own server

13.4.5. 分散環境へのJupyterHubインストール方法 (JupyterHub + Kubernetes)¶

13.4.5.1. クラスタ環境およびKubernetes環境の準備¶

mdxでのクラスタ環境に関しては、複数仮想マシンによるクラスタの作成例を参照ください。

Kubernetesに関しての構築方法は様々ありますが、たとえば https://github.com/a-sugiki/k8s-configs を利用するとmdxの機能をより効果的に利用可能です。

13.4.5.2. JupyterHubのインストール¶

Kubernetesのパッケージ管理ツールである Helm を利用してインストールを行います。ログインノードにて、以下を実行します。

$ helm repo add jupyterhub https://jupyterhub.github.io/helm-chart/
$ helm repo update

JupyterHubのhelm-chartがインストールされました。空の config.yaml ファイルを用意し以下を実行します。 config.yamlが空の場合、Default値によって動作します。

$ helm upgrade --cleanup-on-fail --install <helm-release-name> jupyterhub/jupyterhub --namespace <k8s-namespace> --create-namespace --version=<chart-version> --values config.yaml

たとえば、<helm-release-name>, <k8s-namespace> を jupyter とし version 2.0.0 を実行する場合、以下のようにします。

$ helm upgrade --cleanup-on-fail --install jupyter jupyterhub/jupyterhub --namespace jupyter --create-namespace --version=2.0.0 --values config.yaml

JupyterHubがKubernetes上にデプロイされました。

$ kubectl get pods -n jupyter

などとすると、jupyter namespace上にJupyterHub用のPodsが展開されているのが確認できます。
デプロイ後、config.yamlを変更し、上記コマンドを再実行することによって各種設定を更新することができます。
設定方法の詳細は公式のドキュメント ( Configuration Reference ) を参照してください。
以下例として、機械学習用にDockerイメージや計算リソースを設定します。

13.4.5.3. 機械学習用 JupyterHub 設定例¶

設定例として、以下を行います。

パスワード管理方法の設定
Data-Science Notebook イメージの設定
リソースの設定
共有フォルダの設定

全ての設定を行うとconfig.yamlは以下のようになります。

hub:
    config:
        JupyterHub:
            authenticator_class: firstuseauthenticator.FirstUseAuthenticator
singleuser:
    image:
        name: jupyter/datascience-notebook
        tag: latest
    cpu:
        limit: 32
        guarantee: 16
    profileList:
        - display_name: "GPU Server"
          description: "Spawns a notebook server with access to a GPU"
          kubespawner_override:
              extra_resource_limits:
              nvidia.com/gpu: "1"
    memory:
        limit: 50G
        guarantee: 50G
    storage:
        capacity: 100Gi
        extraVolumes:
            - name: shm-volume
              emptyDir:
                  medium: Memory
        extraVolumeMounts:
            - name: shm-volume
              mountPath: /dev/shm

以下、設定の説明です。

13.4.5.3.1. パスワード管理方法 (FirstUseAuthenticator ) の設定¶

TLJHのように初回アクセス時にパスワードを設定する方法は、最もシンプルな実用的方法です。

FirstUseAuthenticator と呼ばれ、config.yamlに以下を追記し設定を行います。

hub:
    config:
        JupyterHub:
            authenticator_class: firstuseauthenticator.FirstUseAuthenticator

他にもJupyterHubではLDAPやOAuth2など様々なユーザーアクセス管理がサポートされています。

詳細は公式のドキュメント ( Authentication and authorization ) を参照してください。

13.4.5.3.2. Data-Science Notebook イメージの設定¶

Kubernetes 上にデプロイされるJupyterコンテナイメージの変更を行います。公開されている公式コンテナイメージは様々ありますが、（ Selecting an Image ）ここでは Data-science Notebook を利用します。

config.yamlに以下を追記します。

singleuser:
    image:
        name: jupyter/datascience-notebook
        tag: latest

13.4.5.3.3. リソースの設定¶

機械学習のプログラムではGPUなどの計算リソースを大量に利用する必要があります。ここではCPU/GPU/Memory/Storageを再設定し、機械学習のプログラムを十分に実行できるコンテナ環境にします。

config.yamlに以下を追記します。

singleuser:
    cpu:
        limit: 32
        guarantee: 16
    profileList:
        - display_name: "GPU Server"
          description: "Spawns a notebook server with access to a GPU"
          kubespawner_override:
              extra_resource_limits:
              nvidia.com/gpu: "1"
    memory:
        limit: 50G
        guarantee: 50G
    storage:
        capacity: 100Gi
        extraVolumes:
            - name: shm-volume
              emptyDir:
                  medium: Memory
        extraVolumeMounts:
            - name: shm-volume
              mountPath: /dev/shm

13.4.5.3.4. ユーザー間共有フォルダの設定¶

各ユーザーが立ち上げたJupyterコンテナ間から共通にアクセスできる共有フォルダの設定を行います。

本設定はconfig.yamlの設定に加え、KubernetesにてPersistentVolumeClaim (PVC)の設定を行う必要があります。

まず、DefaultのStorageClassが設定されていることを前提とし、以下設定ファイルを作成します (shared-directory.yamlとする)。

kind: PersistentVolumeClaim
    apiVersion: v1
metadata:
    name: jupyterhub-shared-volume
    namespace: jupyter
spec:
    accessModes:
       - ReadWriteMany
    volumeMode: Filesystem
    resources:
        requests:
        storage: 10000Gi

設定ファイルを利用してPVCをデプロイします。

$ kubectl create -f shared-directory.yaml

Kubernetes上にPVCが作成されました。

次に、config.yamlに以下を追記し、helm upgradeを行います。

singleuser:
    storage:
        extraVolumes:
            ....
            - name: jupyterhub-shared
              persistentVolumeClaim:
                  claimName: jupyterhub-shared-volume
        extraVolumeMounts:
            ....
            - name: jupyterhub-shared
              mountPath: /home/jovyan/shared

これで、ユーザー間の共有フォルダ shared が作成されます。

13.4.6. 参考URL¶

13.5. LustreClient のアップデート手順¶

既にインストールされているLustreClientに対して、新たに提供されたバージョンへのアップデート手順を以下に記載します。なお、提供バージョンは以下があり、OSに合わせて適用をお願いします。

lustre-2.12.9_ddn48：Ubuntu20.04 は、このバージョンを利用してください。
lustre-2.14.0_ddn149：Ubuntu22.04, Rocky 8, Rocky 9 は、このバージョンを利用してください。

13.5.1. Rocky 8 仮想マシンの場合¶

インストール済みのバージョン(lustre-2.12.9_ddn26)から新たな提供バージョン(lustre-2.14.0_ddn149)へのアップデート手順を以下に記載します。

Lustreサービスの停止

# systemctl stop lustre_client
# systemctl status lustre_client

旧OFED ドライバのアンインストール
```
# /usr/sbin/ofed_uninstall.sh
```
新OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-23.10-3.2.2.0-rhel8.10-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
# mount -o ro,loop MLNX_OFED_LINUX-23.10-3.2.2.0-rhel8.10-x86_64.iso /mnt
# cd /mnt
# ./mlnxofedinstall --guest
```

パッケージのダウンロード

# wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz

パッケージの展開

# tar zxf lustre-2.14.0_ddn149.tar.gz
# cd lustre-2.14.0_ddn149

LustreClientパッケージのビルド

# dnf install json-c-devel
# ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make rpms

LustreClientパッケージのインストール

# rpm -Uvh kmod-lustre-client-2.14.0_ddn149-1.el8.x86_64.rpm lustre-client-2.14.0_ddn149-1.el8.x86_64.rpm

システムの再起動
```
# reboot
```
再起動後、高速内部ストレージ領域(/fast)や大容量領域(/large)がマウントされていることを確認する。

13.5.2. Rocky 9 仮想マシンの場合¶

インストール済みのバージョン(lustre-2.14.0_ddn93)から新たな提供バージョン(lustre-2.14.0_ddn149)へのアップデート手順を以下に記載します。

Lustreサービスの停止

# systemctl stop lustre_client
# systemctl status lustre_client

旧OFED ドライバのアンインストール
```
# /usr/sbin/ofed_uninstall.sh
```
新OFED ドライバのインストール

Mellanox 社のWeb からOFED ドライバのISO イメージ「MLNX_OFED_LINUX-24.04-0.7.0.0-rhel9.4-x86_64.iso」を入手します。

ISO イメージをマウントし、インストールスクリプトを実行します。この際、インストールするモジュールの選択として「--guest（VM のゲストOS 用）」を指定します。
```
# mount -o ro,loop MLNX_OFED_LINUX-24.04-0.7.0.0-rhel9.4-x86_64.iso /mnt
# cd /mnt
# ./mlnxofedinstall --guest
```

パッケージのダウンロード

# wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz

パッケージの展開

# tar zxf lustre-2.14.0_ddn149.tar.gz
# cd lustre-2.14.0_ddn149

LustreClientパッケージのビルド

# ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
# make rpms

LustreClientパッケージのインストール

# rpm -Uvh kmod-lustre-client-2.14.0_ddn149-1.el9.x86_64.rpm lustre-client-2.14.0_ddn149-1.el9.x86_64.rpm

システムの再起動
```
# reboot
```
再起動後、高速内部ストレージ領域(/fast)や大容量領域(/large)がマウントされていることを確認する。

13.5.3. Ubuntu20.04 仮想マシンの場合¶

インストール済みのバージョン(lustre-2.12.9_ddn26)から新たな提供バージョン(lustre-2.12.9_ddn48)へのアップデート手順を以下に記載します。

Lustreサービスの停止

$ sudo systemctl stop lustre_client
$ sudo systemctl status lustre_client

dkmsコマンドで現在のLustreClientの削除

$ sudo dkms uninstall -m lustre-client-modules -v 2.12.9-ddn26 -k $(uname -r)
$ sudo dkms remove -m lustre-client-modules -v 2.12.9-ddn26 -k $(uname -r)

パッケージとパッチのダウンロード

$ wget http://172.16.2.26/lustre-2.12.9_ddn48.tar.gz
$ wget http://172.16.2.26/lustre-2.12.9_ddn48.ubuntu20.04.patch

パッケージの展開とパッチの適用

$ tar zxf lustre-2.12.9_ddn48.tar.gz
$ cd lustre-2.12.9_ddn48
$ patch -p1 < ../lustre-2.12.9_ddn48.ubuntu20.04.patch

LustreClientパッケージのビルド

$ ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
$ make dkms-debs

LustreClientパッケージのインストール

$ cd debs
$ sudo apt install ./lustre-client-modules-dkms_2.12.9-ddn48-1_amd64.deb
$ sudo apt install ./lustre-client-utils_2.12.9-ddn48-1_amd64.deb

システムの再起動
```
$ sudo reboot
```
再起動後、高速内部ストレージ領域(/fast)や大容量領域(/large)がマウントされていることを確認する。

13.5.4. Ubuntu22.04 仮想マシンの場合¶

インストール済みのバージョン(2.14.0-ddn93)から新たな提供バージョン(2.14.0-ddn149)へのアップデート手順を以下に記載します。

Lustreサービスの停止

$ sudo systemctl stop lustre_client
$ sudo systemctl status lustre_client

dkmsコマンドで現在のLustreClientの削除

$ sudo dkms uninstall -m lustre-client-modules -v 2.14.0-ddn93 -k $(uname -r)
$ sudo dkms remove -m lustre-client-modules -v 2.14.0-ddn93 -k $(uname -r)

パッケージとパッチのダウンロード

$ wget http://172.16.2.26/lustre-2.14.0_ddn149.tar.gz

パッケージの展開

$ tar zxf lustre-2.14.0_ddn149.tar.gz
$ cd lustre-2.14.0_ddn149

LustreClientパッケージのビルド

$ ./configure --with-linux=/usr/src/linux-headers-$(uname -r) --with-o2ib=/usr/src/ofa_kernel/default --disable-server --disable-lru-resize
$ make dkms-debs

LustreClientパッケージのインストール

$ cd debs
$ sudo apt install ./lustre-client-modules-dkms_2.14.0-ddn149-1_amd64.deb
$ sudo apt install ./lustre-client-utils_2.14.0-ddn149-1_amd64.deb

システムの再起動
```
$ sudo reboot
```
再起動後、高速内部ストレージ領域(/fast)や大容量領域(/large)がマウントされていることを確認する。

13.6. 仮想マシン上でプロジェクトの残ポイント数を確認する¶

仮想マシン上でプロジェクトの残ポイント数を確認する機能を提供しています。

本機能を利用するには、プロジェクト編集申請で大容量ストレージを申請する必要があります。

マウント手順にしたがって、本機能を利用する仮想マシン上に大容量ストレージをマウントします。
以下を実行してディレクトリを作成します。ディレクトリ作成後、定期的にポイント情報が取得されます。
```
# mkdir /large/mdx_status
```

ポイント情報取得後(最大1時間)に、以下を実行することで残ポイント数を確認できます。

$ /large/mdx_status/show_point
Update:            2024-04-01 11:41:54 JST
Remaining Points:     32929.18
Expiration Date:   2024-09-30 JST

See https://oprpl.mdx.jp/ for more detail.

各項目の意味は以下の通りです。