infra 2 Kubernetes에서 LLM 서빙을 “GPU 기준”으로 오토스케일링하기: KServe(vLLM) + KEDA + DCGM, 그리고 노드까지 따라오는 설계(2026년 4월) 2026/04/25 AWS 비용 50% 절감한 방법 💰 2025/12/01