問題発生の環境とエラー症状
AMD最新のRDNA 4アーキテクチャ搭載GPU「Radeon RX 9060 XT」でROCm 6.4.4を使用した場合、GPUの基本操作時にシステムがクラッシュし、コアダンプが発生する問題があります。具体的には、PyTorchやTensorFlowでのGPU演算実行時に突然システムが停止し、ログにはメモリ違反やGPUハンドルの無効化を示すエラーが出力されます。この問題はAMD公式の互換性宣言に反しており、現時点ではROCm利用が実質不可能な状況となっています。
結論
ROCm 6.4.4はRDNA 4(RX 9060 XT)に対応していません。解決策はROCm 7.0.xへアップデートすること、またはRDNA 3以前のGPU(Radeon RX 7900 XTXなど)を使用することです。AMDはRDNA 4公式サポートを表明していないため、等待ちが必要です。
具体的な解決手順
手順1:現在のROCmバージョンの確認
まず、現在のROCmインストール状況を確認します。
rocminfo
rocm-smi --version
手順2:GPUのアーキテクチャ確認
GPUがRDNA 4(gfx1200)かそれ以外か確認します。
rocm-smi --showproductname
手順3:ROCm 7.0.xへのアップデート(推奨)
RDNA 4 GPUをお持ちの場合、ROCm 7.0.xへアップデートしてください。
sudo apt update
sudo apt install rocm-dkms rocminfo
reboot
手順4:動作確認
アップデト後、基本的なGPU演算テストを実行します。
rocminfo | grep -A 10 "GPU"
python3 -c "import torch; print(torch.cuda.is_available()); print(torch.cuda.get_device_name(0) if torch.cuda.is_available() else 'N/A')"
代替手段:RDNA 3以前のGPU使用
もしROCm 7.0.xでも問題が続く場合、RDNA 3以前のGPU(RX 7900 XTX/XT/X、RX 7700 XTなど)の使用を検討してください。これらはROCm 6.xおよび7.xで正式にサポートされています。
補足・注意点
- バージョン依存:ROCm 6.4.4はRDNA 4非対応。ROCm 7.0.1ではamdgpu driver 30.10.1との互換性改善されているが、RDNA 4の公式サポートは未だ表明されていない
- 環境差異:Linux環境(Ubuntu 22.04/24.04)での動作報告居多。WSL2環境では追加設定が必要な場合あり
- よくある落とし穴:AMDPROCOP(セキュアブート)が有効な場合、ROCm Driverのロードに失敗することがあるので、BIOS設定の確認を推奨
- PyTorch利用時:PyTorch 2.9ではAO TritonがRX 7000シリーズでデフォルト無効。手動有効化が必要
- マルチGPU構成:現時点でROCmのRadeonマルチGPU設定には既知の問題があり、単一GPU構成が安定
参考元
- GitHub Issue #5657: Critical ROCm 6.4.4 Core Dump with RDNA 4 (RX 9060 XT)
- Radeon Limitations and recommended settings
- ROCm Compatibility Matrix
- AMD ROCm does not support AMD Ryzen AI 300 Series GPUs