11. FAQ¶
11.1. どうすれば自分の環境から起動中の仮想マシンにsshで接続できますか?¶
なお、本設定はセキュリティに関わる重要な設定です。利用者の責任において各設定を行ってください。
11.2. デスクトップと仮想マシン間でファイルのやり取りを行うためにはどうすればいいですか?¶
11.3. 高速内部ストレージ、大容量ストレージの利用可能な容量はどこで確認できますか?¶
高速内部ストレージ、大容量ストレージの利用可能な容量を確認する をご確認ください。
11.4. dfで高速内部ストレージ、大容量ストレージの使用量/上限値を確認しましたが、正しく表示されていません。¶
確認方法については、高速内部ストレージ、大容量ストレージの利用可能な容量を確認する をご確認ください。
11.5. 仮想マシンをcloneした際に、clone元とclone先に同じIPアドレスが割り当たってしまうのはなぜでしょうか?¶
一般的に、machine-idが変わらないと、同じIPアドレスが割り当たります。
cloneの手順
clone元の /etc/machine-id を空にする
clone元をシャットダウン
clone実行
なお、本操作を自動で行う機能については、実装方式を検討しています。機能が実装されるまでは、手動での対応をお願いいたします。
11.6. 仮想マシンに静的IPアドレスを設定したいのですが、どのようなアドレスを指定すればよいでしょうか?¶
- 仮想マシンに設定されているセグメントは、上部メニュー[仮想マシン]をクリックしてメイン画面に表示される仮想マシンの一覧から任意の仮想マシンを選択し、右のサマリ情報内サービスネットワーク>セグメントより確認できます。
- セグメントに割り振られるIPアドレスの範囲は、上部メニュー[ネットワーク]をクリックしてメイン画面に表示されるセグメントの一覧から上記で確認したセグメントを選択し、右に表示されるIPアドレス範囲から確認します。
なお、ネットワークの各種設定は、以下の通りです。
- デフォルトゲートウェイアドレス:仮想マシンに設定されているセグメントに対して提供されているIPアドレス範囲のうち、最後から2番目のアドレスになります。例)IPアドレス範囲に「10.12.123.0/21」と記載されていた場合、10.12.127.254です。
- ブロードキャストアドレス:仮想マシンに設定されているセグメントに対して提供されているIPアドレス範囲のうち、最後のアドレスになります。例)IPアドレス範囲に「10.12.123.0/21」と記載されていた場合、10.12.127.255です。
NTPサーバ:172.16.2.[26,27]をご利用ください。
DNSサーバ:172.16.2.[26,27]をご利用ください。もしくはPubic DNS(例えば、Googleが提供するPublic DNSサーバ 8.8.8.8 など)をご利用ください。
ACLフィルタルール例)
srcアドレス: 8.8.8.8
SrcPrefix長/32
srcポート: 53
Dstアドレス: VMのアドレス
DstPrefix長: 32
Dstポート: any
11.7. 仮想マシンに設定した公開鍵を修正したい場合はどうすればいいですか?¶
11.8. DNAT、ACLで何を設定したらよいのか分かりません。¶
11.9. 短期間に大量の資源量が必要な場合はどう対処すればよいでしょうか。¶
11.10. IPアドレスが長く待っても割り当たりません。割り当たっていたものが突然無くなってしまいました。¶
11.11. 仮想マシンが不安定になりました。障害でしょうか。¶
11.12. 仮想マシンは起動したのですが、Lustre領域(/fast、/large)のマウントに失敗する場合は、どう対処すればよいでしょうか。¶
以下の手順でカーネルモジュールの再作成を行い、lustre 領域が mount されるかご確認下さい。
build された ofed モジュールをアンインストールする
$ sudo dkms uninstall -m mlnx-ofed-kernel -v 5.1 -k $(uname -r)
ofed モジュールのソースを削除
$ sudo dkms remove -m mlnx-ofed-kernel -v 5.1 -k $(uname -r)
ofed モジュールのソースをコンパイル
$ sudo dkms build -m mlnx-ofed-kernel -v 5.1 -k $(uname -r)
build されたofed モジュールをインストール
$ sudo dkms install -m mlnx-ofed-kernel -v 5.1 -k $(uname -r)
build された lustre_client モジュールをアンインストール
$ sudo dkms uninstall -m lustre-client-modules -v 2.12.6-ddn13 -k $(uname -r)
lustre_client モジュールのソースを削除
$ sudo dkms remove -m lustre-client-modules -v 2.12.6-ddn13 -k $(uname -r)
ofa_kernel_headersのシンボリックリンク先を現在のカーネルリリース情報に置き換える
$ sudo update-alternatives --set ofa_kernel_headers /usr/src/ofa_kernel/x86_64/$(uname -r)
lustre_client モジュールのソースをコンパイル
$ sudo dkms build -m lustre-client-modules -v 2.12.6-ddn13 -k $(uname -r)
build されたlustre_client モジュールをインストール
$ sudo dkms install -m lustre-client-modules -v 2.12.6-ddn13 -k $(uname -r)
仮想マシンの再起動
$ sudo reboot ※1回の再起動で、立ち上がらない等ありました場合には、少し時間を空け数回再起動を行い状況を確認願います。
11.13. bucket全体をまとめて公開する方法を教えてください。¶
bucket 配下の公開/非公開をまとめて行う場合の手順は以下となります。
各bucket用のポリシーを作成する。
※bucketごとにポリシー用のファイルの準備をお願いします。
---記載例(ファイル名:bucket_list.json)--- { "Version": "2008-10-17", ←※変えないでください "Statement": [ { "Sid": "bucket_list", ←※記載内容は任意 "Effect": "Allow", "Principal": { "DDN": ["*"] ←※変えないでください }, "Action": [ "s3:ListBucket", "s3:GetObject" ], "Resource": "bucket_list" ←※公開するbucket名を指定 } ] } ---ここまで---
作成したポリシーを対象のbuketに適用する。
$ s3cmd --no-check-certificate setpolicy bucket_list.json s3://bucket_list
オブジェクトが公開されていることを確認する。
"https://s3ds.mdx.jp/bucket_list/<オブジェクト名>"
以上で公開設定完了。
11.14. 仮想マシンへsshログイン後、一定の時間が経過すると切断されてしまう。対応方法を教えてください。¶
mdxのファイヤーウォールでは、無通信のまま30分以上が経つと切断する設定となっています。
サーバあるいはクライアント側で無通信状態による接続断を防ぐための以下を参考に対応をお願いします。
Windows の場合、SSH クライアント (Putty、TeraTerm 等) で keep-alive 設定を行う。
サーバ側の sshd_config や ssh_config の設定 (ClientAliveInterval、ClientAliveCountMax)を行う。
11.15. ストレージネットワーク(PVRDMA)を利用した環境も ストレージネットワーク(SR-IOV)の環境と同様なRDMA によるノード間通信環境が構築可能ですか?¶
PVRDMA (準仮想化RDMA):
ノード間の RDMA 通信は可能。ただし、ストレージ (Lustre) は TCP 接続となります。
SR-IOV:
ノード間、ストレージ (Lustre) も含め RDMA による通信となります。
11.16. ISOイメージからOSをインストールする際にストレージを見つけられないエラーが発生しました¶
11.17. GPUパックを利用する仮想マシンの新規作成を行ったが、エラーとなり仮想マシンの作成に失敗する。¶
GPUパックを利用する仮想マシンの新規作成(デプロイ)時において、「No available ESXi found.」と出力され、 デプロイに失敗する。
仮想マシンは ESXi ホスト上で動作しますが、この ESXi ホストは (GPU の場合、物理ノードとしても) 8 GPU パックを使用する仮想マシンが最大となります。 また、運用仕様上、ESXi ホストは複数の利用者様の仮想マシンを同一 ESXi ホスト上で動作する場合があり、 GPUパック数を指定する数によっては、他の利用者様とリソースを分け合う運用となります。 そのため、GPUの空き資源の状況により、指定のGPUパック数を満たす環境が無く仮想マシンの作成失敗する 場合があります。
仮想マシンの作成に失敗した場合には、指定するGPU パック数について見直しを行い(元の指定数より減らす)、 改めて仮想マシンの新規作成(デプロイ)を実施にて確認をお願いします。
なお、一度に最大で利用可能な GPUパック数は、利用状況により変化するためご留意願います。
11.18. 仮想マシンのGPUパック数の変更(増加)を行ったが、エラーとなり増やすことができなかった¶
ユーザポータル - 仮想マシン - コントロール の画面で対象の仮想マシンを選択します。
(利用者様にて仮想マシンを起動していた場合) 操作アイコンの「ACTION」で表示される一覧より、電源 - シャットダウン を実行します。(OS コマンドによりシャットダウンしても問題ありません)
仮想マシン停止後、同じようにACTIONから、メンテナンス - 仮想マシンの休止を実行します。
仮想マシンの休止完了後、同じようにACTIONから、「ACTION」から、「構成変更」を選択しGPUパック数の変更を実施します。
仮想マシンを起動頂き利用可能となったことをご確認願います。
11.19. 仮想マシン上にて特定のGPUを使用すると「CUDA error: uncorrectable ECC error encountered」というメッセージが出力する。¶
- エラーカウントの確認のため、以下のコマンドを実行します。いずれかのGPUにて下記★印に示す値が"0"より大きい値になっているか確認します。
# nvidia-smi -q -d ECC ※以下、出力結果抜粋 GPU 00000000:05:00.0 Ecc Mode Current : Enabled Pending : Enabled ECC Errors Volatile SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 9 ★ DRAM Uncorrectable : 11 ★ Aggregate SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 9 DRAM Uncorrectable : 11
- 上記で"0"より大きい値を確認した場合、対象のGPUにて"Uncorrectable Error"のカウント数を以下のコマンドにて確認します。
# nvidia-smi -q -i <GPU番号> ※<GPU番号>は、1.でGPU単位で出力した順に番号が指定でき、出力順に、0、1、2・・・となります。 以下は、GPUの1番(出力単位で2番目のGPU)を指定した場合の出力内容抜粋になります。 ※以下、出力結果抜粋 # nvidia-smi -q -i 1 ・・<snip>・・ Remapped Rows Correctable Error : 0 Uncorrectable Error : 2 ★ Pending : No Remapping Failure Occurred : No
- 実行結果から、"Remapped Rows"項目の"Uncorrectable Error"の値が"8"より小さい場合は、以下のコマンドにてGPUデバイスの再起動をお願いいたします。
# nvidia-smi -r
GPUデバイス再起動後に、再度以下のコマンドで、★印のエラーカウントの値が"0"となっているか、ご確認ください。
# nvidia-smi -q -d ECC -i 1 ※以下、出力結果抜粋 GPU 00000000:05:00.0 Ecc Mode Current : Enabled Pending : Enabled ECC Errors Volatile SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 0 ★ DRAM Uncorrectable : 0 ★ Aggregate SRAM Correctable : 0 SRAM Uncorrectable : 0 DRAM Correctable : 9 DRAM Uncorrectable : 11
「nvidia-smi -q -i <GPU番号>」の実行結果
「nvidia-smi -q -i <GPU番号> | grep -e "Serial Number" -e "GPU UUID"」の実行結果
11.20. GPU仮想マシン上でnvidia-smiを使うとGPU-UtilがN/Aと表示されて利用できないGPUがある¶
GPUの状態を確認 (以下の場合、GPU ID 1でMIGが有効化されているため、通常のGPUとして使用できません(MIGとしては利用可能です)。
mdxuser@ubuntu-2204:~$ nvidia-smi Mon Jul 10 22:11:43 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA A100-SXM4-40GB Off | 00000000:03:00.0 Off | 0 | | N/A 24C P0 42W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 1 NVIDIA A100-SXM4-40GB Off | 00000000:05:00.0 Off | On | | N/A 24C P0 43W / 400W | 0MiB / 40960MiB | N/A Default | | | | Enabled | +-----------------------------------------+----------------------+----------------------+ | 2 NVIDIA A100-SXM4-40GB Off | 00000000:0D:00.0 Off | 0 | | N/A 25C P0 49W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 3 NVIDIA A100-SXM4-40GB Off | 00000000:0F:00.0 Off | 0 | | N/A 25C P0 48W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | MIG devices: | +------------------+--------------------------------+-----------+-----------------------+ | GPU GI CI MIG | Memory-Usage | Vol| Shared | | ID ID Dev | BAR1-Usage | SM Unc| CE ENC DEC OFA JPG | | | | ECC| | |==================+================================+===========+=======================| | No MIG devices found | +---------------------------------------------------------------------------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+
MIGは sudo nvidia-smi -i <GPU ID> -mig 0 で無効化できます。無効化すると以下の通り、MIG devices: の表示が消え、GPU-UtilがN/Aから0%になります。
mdxuser@ubuntu-2204:~$ sudo nvidia-smi -i 1 -mig 0 Disabled MIG Mode for GPU 00000000:05:00.0 All done. mdxuser@ubuntu-2204:~$ sudo nvidia-smi Mon Jul 10 22:15:43 2023 +---------------------------------------------------------------------------------------+ | NVIDIA-SMI 535.54.03 Driver Version: 535.54.03 CUDA Version: 12.2 | |-----------------------------------------+----------------------+----------------------+ | GPU Name Persistence-M | Bus-Id Disp.A | Volatile Uncorr. ECC | | Fan Temp Perf Pwr:Usage/Cap | Memory-Usage | GPU-Util Compute M. | | | | MIG M. | |=========================================+======================+======================| | 0 NVIDIA A100-SXM4-40GB Off | 00000000:03:00.0 Off | 0 | | N/A 24C P0 42W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 1 NVIDIA A100-SXM4-40GB Off | 00000000:05:00.0 Off | 0 | | N/A 24C P0 42W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 2 NVIDIA A100-SXM4-40GB Off | 00000000:0D:00.0 Off | 0 | | N/A 25C P0 49W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ | 3 NVIDIA A100-SXM4-40GB Off | 00000000:0F:00.0 Off | 0 | | N/A 25C P0 48W / 400W | 4MiB / 40960MiB | 0% Default | | | | Disabled | +-----------------------------------------+----------------------+----------------------+ +---------------------------------------------------------------------------------------+ | Processes: | | GPU GI CI PID Type Process name GPU Memory | | ID ID Usage | |=======================================================================================| | No running processes found | +---------------------------------------------------------------------------------------+