Nvidia GPU Operator
설치
helm repo add nvidia https://nvidia.github.io/gpu-operator \
&& helm repo update nvidia
helm search repo gpu-operator -l | head -n 10
mkdir -p node/gpu-operator/helm
helm show values nvidia/gpu-operator \
--version v1.9.1 \
> node/gpu-operator/helm/values.yaml
https://github.com/NVIDIA/gpu-operator/blob/master/deployments/gpu-operator/values.yaml
- NVIDIA driver
- NVIDIA driver manager
- NVIDIA container toolkit
- NVIDIA k8s device plugin
- NVIDIA dcgm-exporter
- NFD(Node Feature Discovery)
- NVIDIA GPU Feature Discovery # NFD가 설치되어 있어야 함
- NVIDIA MIG(Multi-Instance GPU) manager
- NVIDIA DCGM(Data Center GPU Manager)
node/gpu-operator/helm/values.yaml
driver:
# NVIDIA driver가 Node에 설치되어 실행되는 경우 false로 설정
enabled: fasle
toolkit:
# nvidia-docker2가 Node에 설치되어 실행되는 경우 false로 설정
enabled: false
helm upgrade gpu-operator nvidia/gpu-operator \
--install \
--version v1.9.1 \
-n nvidia \
--create-namespace \
-f node/gpu-operator/helm/values.yaml
정보
NFD와 GFD에 의해 Node label에 시스템 정보가 추 가되며, 이를 nodeAffinity
에 설정하여 사용할 수 있습니다.
kubectl get node -o json | jq '.items[].metadata.labels'
kubectl get node -o json | jq '.items[].metadata.annotations'
Removal
helm uninstall gpu-operator -n nvidia