Infra 8

서버리스 LLM 배포 2026년 7월판: Modal vs Runpod vs AWS Lambda, 그리고 “cold start를 설계로 이기는” 방법 2026/07/17
2026년 7월, Kubernetes에서 LLM 서빙을 “GPU 오토스케일”로 굴리는 현실적인 방법: KEDA + (Queue Depth / KV Cache) + DCGM/NVML 2026/07/03
서버리스 LLM 배포의 현실(2026년 6월): Modal·RunPod·AWS Lambda에서 cold start를 “구조적으로” 없애는 방법 2026/06/23
GPU가 병목인 LLM 서빙, Kubernetes에서 “제대로” 오토스케일링하는 법 (2026년 6월 기준) 2026/06/17
서버리스 LLM 배포 2026년 5월 판: Modal vs Runpod vs AWS Lambda, 그리고 Cold Start를 “설계로” 이기는 법 2026/05/31
GPU 오토스케일링 2026: Kubernetes에서 LLM 서빙을 “GPU 기준”으로 제대로 스케일하는 법 (HPA/KEDA/DCGM/DRA/MIG 실전 조합) 2026/05/27
GPU 오토스케일링, 2026년 5월 기준 “정답”은 GPU%가 아니라 KV Cache·Queue·SLO다 2026/05/10
Kubernetes에서 LLM 서빙을 “GPU 기준”으로 오토스케일링하기: KServe(vLLM) + KEDA + DCGM, 그리고 노드까지 따라오는 설계(2026년 4월) 2026/04/25