Skip to main content

etc


Instance 설정

Environment

  • /opt/slurm
  • /opt/slurm/etc/slurm.conf
  • /opt/slurm/etc/slurm.sh
  • /etc/profile.d/slurm.sh -> /opt/slurm/etc/slurm.sh(symbolic link)

ResumeTimeout

/opt/slurm/etc/slurm.conf 파일에서 아래 설정값을 수정하여 잡이 없을 때 컴퓨트 노드가 꺼질 시간을 설정합니다.

ResumeTimeout=600

scontrol 명령어

<jobid>, <jobid>,<jobid>, {<jobid>..<jobid>}

CF 상태에서 멈춰있는 작업 재시작하기

Suspend 상태로 만들기

sudo `which scontrol` suspend jobid=<jobid>

Suspend -> Pending 상태로 만들기

sudo `which scontrol` requeue jobid=<jobid>

Pending -> Configuring or Running 상태로 만들기

sudo `which scontrol` requeue jobid=<jobid>