AMD Kubernetes Device Plugin
amd.com/gpu 자원
- Node에 AMD GPU 드라이버가 설치되어 있어야 합니다.
- Node의 capacity에 amd.com/gpu 자원이 표시되기 위해서는 amd-device-plugin을 설치해야합니다.
- Pod에 amd.com/gpu 자원을 설정하면 GPU 지원 컨테이너로 스케줄링됩니다.
amd-smi
명령어를 통해 GPU 정보를 확인할 수 있습니다.
Host 준비
GPU 드라이버 설치
- Ubuntu 22.04
sudo mkdir -p --mode=0755 /etc/apt/keyrings
curl -sL https://repo.radeon.com/rocm/rocm.gpg.key \
| gpg --dearmor \
| sudo tee /etc/apt/keyrings/rocm.gpg > /dev/null
export ROCM_VERSION=6.4
echo "deb [arch=amd64 signed-by=/etc/apt/keyrings/rocm.gpg] https://repo.radeon.com/amdgpu/${ROCM_VERSION}/ubuntu jammy main" \
| sudo tee /etc/apt/sources.list.d/amdgpu.list
sudo apt update
sudo apt install amdgpu-dkms
sudo reboot