fix(infra): #316 backend resource request 재산정 + RollingUpdate 25%/25% 복귀

노드 다운사이징(2×1OCPU/6GB) 이후 backend CPU request 500m이 노드 한도
의 절반을 차지해 rollingUpdate 데드락 발생. 임시 패치(maxSurge=0/
maxUnavailable=1) 상태를 합리화하여 25%/25% 기본 정책으로 복귀.

변경:
- cpu 500m/1 → 300m/800m
- mem 768Mi/1536Mi → 512Mi/1024Mi
- strategy 25%/25% 명시 (기본값 복귀)

근거: 실측 idle CPU 0.7%, RSS ~305 MB. peak 30-40% 추정 안에서 안전.
검증: 적용 후 노드 잔여 330m → 다음 배포 시 두 Pod 공존 가능 (무중단).
다운타임: 이번 1회 ~25초 (구 500m Pod 점유 해제), 다음 배포부터 0초.

설계서: docs/design/316-backend-resource-rightsize/README.md (Approved).

Refs: #316
This commit is contained in:
joungmin
2026-06-15 12:07:47 +09:00
parent 2a6d307260
commit 2d41f22b83
3 changed files with 145 additions and 4 deletions

View File

@@ -5,6 +5,11 @@ metadata:
namespace: tasteby
spec:
replicas: 1
strategy:
type: RollingUpdate
rollingUpdate:
maxSurge: 25%
maxUnavailable: 25%
selector:
matchLabels:
app: backend
@@ -34,11 +39,11 @@ spec:
readOnly: true
resources:
requests:
cpu: 500m
memory: 768Mi
cpu: 300m
memory: 512Mi
limits:
cpu: "1"
memory: 1536Mi
cpu: 800m
memory: 1024Mi
readinessProbe:
tcpSocket:
port: 8000