본문으로 건너뛰기

Gateway API Inference Extension (GIE) EndPoint Picker (EPP)

Scheduler

EndpointPickerConfig

설정

apiVersion: inference.networking.x-k8s.io/v1alpha1
kind: EndpointPickerConfig
plugins:
- name: <name>
type: <type>
parameters:
<key>: <value>
schedulingProfiles:
- name: <name>
plugins:
- pluginRef: <pluginName>
weight: <weight>
  • plugins: []
    • SchedulerProfile에 등록할 FilterPlugin, ScorerPlugin, PickerPluginProfileHandler, PreRequestPlugin, PostRequestPlugin을 설정합니다.
    • ProfileHandler는 반드시 하나만 설정해야 합니다.
    • 설정한 PreRequestPlugin과 PostRequestPlugin은 모두 실행됩니다.
    • name: <name>
      • 설정하지 않으면 type이 사용됩니다.
    • type: <type>
      • EPP에 등록된 plugin type 중 하나를 지정합니다.
    • parameters
      • plugin에 전달할 파라미터를 설정합니다.
  • schedulingProfiles: []
    • name: <name>
      • scheduler가 사용할 profile 이름을 설정합니다.
    • plugins: []
      • scheduler가 사용할 FilterPlugin, ScorerPlugin, PickerPlugin을 설정합니다.
      • PickerPlugin은 반드시 하나만 설정해야 합니다.
      • pluginRef: <pluginName>
      • weight: 1
        • plugin이 scorer일 때 사용되는 가중치입니다.

기본 Plugin Type

  • ProfileHandler
    • single-profile-handler
  • FilterPlugin
  • ScorerPlugin
    • prefix-cache-scorer
      • hashBlockSize: 64
      • maxPrefixBlocksToMatch: 256
      • lruCapacityPerServer: 31250
    • lora-affinity-scorer
    • kv-cache-utilization-scorer
    • queue-scorer
    • lora-affinity-scorer
  • PickerPlugin
    • max-score-picker
      • maxNumOfEndpoints: 1
    • random-picker
      • maxNumOfEndpoints: 1
  • PreRequestPlugin
  • PostRequestPlugin