본문으로 건너뛰기

NVIDIA GPU Operator

설치

helm repo add nvidia https://helm.ngc.nvidia.com/nvidia
helm repo update nvidia \
&& helm search repo nvidia/gpu-operator -l | head -n 10
helm pull nvidia/gpu-operator --version v25.3.0
helm show values nvidia/gpu-operator --version v25.3.0 > gpu-operator-v25.3.0.yaml
node/gpu-operator/helm/values.yaml
nfd:
enabled: true

daemonsets:
tolerations: []

driver:
enabled: true

toolkit:
enabled: true
  • driver
    • enabled: true
      • NVIDIA GPU driver가 Node에 설치되어 실행되는 경우 false로 설정해야 합니다.
    • version: <version>
  • toolkit
    • enabled: true
      • NVIDIA Container Toolkit이 Node에 설치되어 실행되는 경우 false로 설정해야 합니다.
helm template gpu-operator nvidia/gpu-operator \
--version v25.3.0 \
-n nvidia-gpu \
-f gpu-operator-values.yaml \
> gpu-operator.yaml
helm upgrade gpu-operator nvidia/gpu-operator \
--install \
--history-max 5 \
--version v25.3.0 \
-n nvidia-gpu \
-f gpu-operator-values.yaml
정보

NFD(Node Feature Discovery)와 GFD(GPU Feature Discovery)에 의해 Node label에 시스템 정보가 추가되며, 이를 nodeAffinity에 설정하여 사용할 수 있습니다.

NFD의 PCI의 deviceLabelFields[class, vendor]로 설정되어 있는 경우, PCI에 NVIDIA 장치가 있다면 feature.node.kubernetes.io/pci-0302_10de.present: "true"같은 Node label로 추가될 수 있습니다.

삭제

helm uninstall gpu-operator -n nvidia-gpu
kubectl delete crd nvidiadrivers.nvidia.com
kubectl delete crd clusterpolicies.nvidia.com