본문으로 건너뛰기

Gateway API Inference Extension Plugin 설정 가이드

ProfileHandler

single-profile-handler

- type: single-profile-handler

하나의 SchedulerProfile만 등록할 수 있고, 해당 profile을 항상 실행합니다.

Scorer

queue-scorer

- type: queue-scorer

후보 Pod들의 metric을 확인하여 대기중인 요청 수를 파악하여 (max - 자기 자신의 대기중 요청 수)/(max - min) 값을 점수로 반환합니다. 대기중인 요청 수가 적을수록 높은 점수를 반환합니다.

kv-cache-utilization-scorer

- type: kv-cache-utilization-scorer

후보 Pod들의 metric을 확인하여 KV cache 사용률을 파악하여 1 - 자기 자신의 사용률 값을 점수로 반환합니다. KV cache 사용률이 낮을수록 높은 점수를 반환합니다.

Picker

max-score-picker

- type: max-score-picker