vLLM 옵션
- ModelConfig
--max-model-len <int>
- prompt와 생성된 토큰을 포함한 최대 시퀀스 길이입니다.
- 설정하지 않으면 모델에 설정되어 있는 최대 길이를 사용합니다.
- SchedulerConfig
schedule 함수를 실행하면 한 step에 처리할 요청들을 결정합니다.
--max-num-seqs <int>
- 한 step에 처리할 수 있는 최대 요청 수 입니다.
- 기본값은 128입니다.
- 값이 높아지면 max throughput이 증가할 수 있지만, ITL도 증가할 수 있습니다.
--max-num-batched-tokens <int>
- 한 step에 처리할 수 있는 최대 토큰 수입니다.
- 기본값은 2048입니다.
- 값이 작아지면(e.g. 2048) decode를 느리게 만드는 prefill이 감소하여 ITL이 감소할 수 있습니다.
- 값이 커지면 한 step에 처리할 수 있는 prefill이 증가하여 TTFT가 감소할 수 있습니다.
- 작은 모델을 큰 GPU에서 실행하는 경우 8192 이상으로 설정하는 것이 좋습니다.
--enable-chunked-prefill, --no-enable-chunked-prefill
- chunked prefill을 활성화/비활성화합니다.
- 기본값은 활성화입니다.
- chunked prefill이 활성화되면 scheduler는 prefill보다 decode의 우선순위를 높게 설정합니다.
- batch에 decode를 채우고 남은 공간에 prefill을 채울 때 공간이 부족하면 prefill을 chunk로 나누어 처리합니다.