NVIDIA GPU Operator
설치
helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update nvidia \
&& helm search repo nvidia/gpu-operator -l | head -n 10
helm pull nvidia/gpu-operator --version v25.3.0
helm show values nvidia/gpu-operator --version v25.3.0 > gpu-operator-v25.3.0.yaml
node/gpu-operator/helm/values.yaml
nfd:
enabled: true
daemonsets:
tolerations: []
driver:
enabled: true
toolkit:
enabled: true
driver
enabled: true
- NVIDIA GPU driver가 Node에 설치되어 실행되는 경우
false
로 설정해야 합니다.
- NVIDIA GPU driver가 Node에 설치되어 실행되는 경우
version: <version>
toolkit
enabled: true
- NVIDIA Container Toolkit이 Node에 설치되어 실행되는 경우
false
로 설정해야 합니다.
- NVIDIA Container Toolkit이 Node에 설치되어 실행되는 경우
helm template gpu-operator nvidia/gpu-operator \
--version v25.3.0 \
-n nvidia-gpu \
-f gpu-operator-values.yaml \
> gpu-operator.yaml
helm upgrade gpu-operator nvidia/gpu-operator \
--install \
--history-max 5 \
--version v25.3.0 \
-n nvidia-gpu \
-f gpu-operator-values.yaml
정보
NFD(Node Feature Discovery)와 GFD(GPU Feature Discovery)에 의해 Node label에 시스템 정보가 추가되며, 이를 nodeAffinity
에 설정하여 사용할 수 있습니다.
NFD의 PCI의 deviceLabelFields
가 [class, vendor]
로 설정되어 있는 경우, PCI에 NVIDIA 장치가 있다면 feature.node.kubernetes.io/pci-0302_10de.present: "true"
같은 Node label로 추가될 수 있습니다.
삭제
helm uninstall gpu-operator -n nvidia-gpu
kubectl delete crd nvidiadrivers.nvidia.com
kubectl delete crd clusterpolicies.nvidia.com