## VLLM이란 VLLM은 LLM 추론을 고속으로 처리하는 서빙 프레임워크다. PagedAttention 기법으로 메모리 효율을 극대화하며, 동시에 여러 요청을 배칭해서 처리할 수 있다. XGen에서는 사내 파인튜닝 모델을 VLLM으로 서빙하고, 이를 프론트엔드에서 관리할 수 있는 UI를 구축했다. ### 모델 서빙 관리 UI VLLM 서버를 프론트엔드에서 관리할 수 있어야 했다. 모델 로드, 언로드, 상태 모니터링, 설정 변경 등의 기능이 필요했다. ```typescript interface VLLMServerConfig { modelPath: string; tensorParallelSize: number; maxModelLen: number; gpuMemoryUtilization: number; quantization?: 'awq' | 'gptq' | 'none'; dtype: 'float16' | 'bfloat16' | 'auto'; } interface VLLMServerStatus { isRunning: boolean; loadedModel: string | null; requestsProcessed: number; avgLatency: number; gpuMemoryUsed: number; gpuMemoryTotal: number; } ``` ### 모델 선택 UI 지원하는 모델 목록을 카드 형태로 표시하고, 각 모델의 사이즈, 권장 GPU, 성능 벤치마크를 함께 보여준다. ```tsx const ModelCard: React.FC<{ model: ModelInfo }> = ({ model }) => (

{model.name}

{model.parameterCount}

권장 VRAM {model.recommendedVram}GB

양자화 {model.supportedQuantization.join(', ')}

); ``` ### Qwen3과 Gemma3 특화 설정 각 모델별로 최적의 서빙 설정이 다르다. Qwen3는 긴 컨텍스트를 지원하므로 `max_model_len`을 높게 잡을 수 있고, Gemma3는 메모리 효율이 좋아 작은 GPU에서도 활용 가능하다. | 모델 | 파라미터 | 권장 GPU | 양자화 | 최대 컨텍스트 | |------|---------|---------|--------|-------------| | Qwen3-8B | 8B | A100 40GB | AWQ | 32K | | Qwen3-4B | 4B | RTX 4090 | GPTQ | 32K | | Gemma3-4B | 4B | RTX 3090 | None | 8K | | Gemma3-12B | 12B | A100 40GB | AWQ | 8K | ### 서빙 상태 모니터링 대시보드 VLLM 서버의 상태를 실시간으로 모니터링하는 대시보드도 함께 구축했다. GPU 메모리 사용률, 초당 토큰 생성 수, 요청 큐 길이 등을 실시간 차트로 표시한다. 이 데이터를 기반으로 오토스케일링 판단도 가능하다.