NVIDIA GPU Operator

설치

References

NVIDIA Docs / GPU Operator / About the NVIDIA GPU Operator

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia

helm repo update nvidia \
&& helm search repo nvidia/gpu-operator -l | head -n 10

helm pull nvidia/gpu-operator --version v25.3.0

helm show values nvidia/gpu-operator --version v25.3.0 > gpu-operator-v25.3.0.yaml

node/gpu-operator/helm/values.yaml
nfd:
  enabled: true

daemonsets:
  tolerations: []

driver:
  enabled: true

toolkit:
  enabled: true

driver
- enabled: true
  - NVIDIA GPU driver가 Node에 설치되어 실행되는 경우 false로 설정해야 합니다.
- version: <version>
toolkit
- enabled: true
  - NVIDIA Container Toolkit이 Node에 설치되어 실행되는 경우 false로 설정해야 합니다.

helm template gpu-operator nvidia/gpu-operator \
  --version v25.3.0 \
  -n nvidia-gpu \
  -f gpu-operator-values.yaml \
  > gpu-operator.yaml

helm upgrade -i gpu-operator nvidia/gpu-operator \
  --history-max 5 \
  --version v25.3.0 \
  -n nvidia-gpu \
  -f gpu-operator-values.yaml

정보

NFD(Node Feature Discovery)와 GFD(GPU Feature Discovery)에 의해 Node label에 시스템 정보가 추가되며, 이를 nodeAffinity에 설정하여 사용할 수 있습니다.

NFD의 PCI의 deviceLabelFields가 [class, vendor]로 설정되어 있는 경우, PCI에 NVIDIA 장치가 있다면 feature.node.kubernetes.io/pci-0302_10de.present: "true"같은 Node label로 추가될 수 있습니다.

삭제

helm uninstall gpu-operator -n nvidia-gpu

kubectl delete crd nvidiadrivers.nvidia.com
kubectl delete crd clusterpolicies.nvidia.com

설치​

삭제​

설치

삭제