fix(infra): #316 backend resource request 재산정 + RollingUpdate 25%/25% 복귀
노드 다운사이징(2×1OCPU/6GB) 이후 backend CPU request 500m이 노드 한도 의 절반을 차지해 rollingUpdate 데드락 발생. 임시 패치(maxSurge=0/ maxUnavailable=1) 상태를 합리화하여 25%/25% 기본 정책으로 복귀. 변경: - cpu 500m/1 → 300m/800m - mem 768Mi/1536Mi → 512Mi/1024Mi - strategy 25%/25% 명시 (기본값 복귀) 근거: 실측 idle CPU 0.7%, RSS ~305 MB. peak 30-40% 추정 안에서 안전. 검증: 적용 후 노드 잔여 330m → 다음 배포 시 두 Pod 공존 가능 (무중단). 다운타임: 이번 1회 ~25초 (구 500m Pod 점유 해제), 다음 배포부터 0초. 설계서: docs/design/316-backend-resource-rightsize/README.md (Approved). Refs: #316
This commit is contained in:
@@ -6,6 +6,15 @@
|
||||
|
||||
## 2026-06-15
|
||||
|
||||
### 🔧 #316 — backend resource request 재산정 + RollingUpdate 정책 복귀
|
||||
- **변경 전**: cpu 500m/1, mem 768Mi/1536Mi, strategy maxSurge=0/maxUnavailable=1 (임시 패치)
|
||||
- **변경 후**: cpu 300m/800m, mem 512Mi/1024Mi, strategy 25%/25% (기본 복귀)
|
||||
- **근거**: 실측 idle 0.7% CPU, RSS ~305 MB. peak 30-40% 추정 안에서 안전.
|
||||
- **검증**: rollout 후 노드 잔여 330m → 다음 배포 시 두 Pod 공존 가능, 무중단 RollingUpdate 회복.
|
||||
- **다운타임**: 이번 1회 ~25초 (구 Pod 500m 점유 해제 위해 강제 종료). 다음 배포부터 0초.
|
||||
- **설계서**: `docs/design/316-backend-resource-rightsize/README.md` (Approved).
|
||||
- Refs: #316 (close)
|
||||
|
||||
### 🏗 OKE 인프라 — 노드 다운사이징 + LB 정리
|
||||
- **Orphan Classic LB 삭제**: 132.226.175.247 (100Mbps shape, OKEclusterName 태그만 남고 DNS/Service 참조 없음) → 비용 절감
|
||||
- **노드풀 교체 (블루-그린)**: `pool1` (2 노드 × 2 OCPU / 8 GB) → `pool2` (2 노드 × 1 OCPU / 6 GB)
|
||||
|
||||
Reference in New Issue
Block a user