bartoszmajsak · July 24, 2025 10:43
diff --git a/config.yaml b/config.yaml
 apiVersion: serving.kserve.io/v1alpha1
 kind: LLMInferenceService
 metadata:
  name: llm-inference-service-model-fb-opt-125m-router-managed-workload
  namespace: kserve-ci-e2e-test
 spec:
  baseRefs:
    - name: model-fb-opt-125m
    - name: router-managed
    - name: workload-single-cpu
  replicas: 1
 ---
 apiVersion: serving.kserve.io/v1alpha1
 kind: LLMInferenceServiceConfig
 metadata:
  name: model-fb-opt-125m
  namespace: kserve-ci-e2e-test
 spec:
  model:
    name: facebook/opt-125m
    uri: hf://facebook/opt-125m
 ---
 apiVersion: serving.kserve.io/v1alpha1
 kind: LLMInferenceServiceConfig
 metadata:
  name: router-managed
  namespace: kserve-ci-e2e-test
 spec:
  router:
    gateway: {}
    route: {}
    scheduler: {}
 ---
 apiVersion: serving.kserve.io/v1alpha1
 kind: LLMInferenceServiceConfig
 metadata:
  name: workload-single-cpu
  namespace: kserve-ci-e2e-test
 spec:
  template:
    containers:
      - name: main
        image: quay.io/pierdipi/vllm-cpu:latest
        env:
          - name: VLLM_LOGGING_LEVEL
            value: DEBUG
        livenessProbe:
          failureThreshold: 5
          initialDelaySeconds: 30
          periodSeconds: 30
          timeoutSeconds: 30
        resources:
          limits:
            cpu: "1"
            memory: 10Gi
          requests:
            cpu: 100m
            memory: 8Gi
	apiVersion: serving.kserve.io/v1alpha1
	kind: LLMInferenceService
	metadata:
	name: llm-inference-service-model-fb-opt-125m-router-managed-workload
	namespace: kserve-ci-e2e-test
	spec:
	baseRefs:
	- name: model-fb-opt-125m
	- name: router-managed
	- name: workload-single-cpu
	replicas: 1
	---
	apiVersion: serving.kserve.io/v1alpha1
	kind: LLMInferenceServiceConfig
	metadata:
	name: model-fb-opt-125m
	namespace: kserve-ci-e2e-test
	spec:
	model:
	name: facebook/opt-125m
	uri: hf://facebook/opt-125m
	---
	apiVersion: serving.kserve.io/v1alpha1
	kind: LLMInferenceServiceConfig
	metadata:
	name: router-managed
	namespace: kserve-ci-e2e-test
	spec:
	router:
	gateway: {}
	route: {}
	scheduler: {}
	---
	apiVersion: serving.kserve.io/v1alpha1
	kind: LLMInferenceServiceConfig
	metadata:
	name: workload-single-cpu
	namespace: kserve-ci-e2e-test
	spec:
	template:
	containers:
	- name: main
	image: quay.io/pierdipi/vllm-cpu:latest
	env:
	- name: VLLM_LOGGING_LEVEL
	value: DEBUG
	livenessProbe:
	failureThreshold: 5
	initialDelaySeconds: 30
	periodSeconds: 30
	timeoutSeconds: 30
	resources:
	limits:
	cpu: "1"
	memory: 10Gi
	requests:
	cpu: 100m
	memory: 8Gi