본문으로 건너뛰기

vLLM 설정 가이드

vLLM 옵션

  • SchedulerConfig
    • schedule 함수를 실행하면 한 step에 처리할 요청들을 결정합니다.
    • --max-num-seqs <int>
      • 한 step에 처리할 수 있는 최대 요청 수 입니다.
    • --max-num-batched-tokens <int>
      • 한 step에 처리할 수 있는 최대 토큰 수입니다.