티스토리 뷰

SRE

애플리케이션 플랫폼: 모니터링

Jaime.Lee 2025. 6. 13. 10:30

모니터링

1. 서비스 가용성 측정 수단

  • 메트릭: 수치 기반, 시계열 데이터
  • 로그: 세부 이벤트 기록
  • 분산 추적: 요청 흐름 추적

2. 가용성 모니터링

개념

  • 가용성 신호: 시스템 상태를 거시적으로 판단 (ex. 자원 소비량, 판매량, 스트리밍량 등)
  • SLI (서비스 수준 지표): 측정 지표
  • SLO (서비스 수준 목표): SLI의 허용 범위
  • SLA (서비스 수준 협약): 계약 수준으로, 보통 SLO보다 완화된 기준

핵심

  • SLA 위반 가능성 감지 및 선제적 경고가 중요
  • 메트릭은 값싸고 전체적인 활동 파악에 유리 (전수 데이터도 가능)
  • 단점: 개별 요청 추적에는 부적합 → 전체 흐름 파악용

3. L-USE 모델 (핵심 가용성 신호)

  • Latency (지연 시간): REST 엔드포인트, 최대 레이턴시 중요
  • Utilization (사용률): CPU, 메모리, 네트워크
  • Saturation (포화도): 대기 중 작업량 (커넥션 풀, 요청 풀 등)
  • Errors (오류율): 에러 발생 비율 (서킷 브레이커 발동률 등 포함)

📌 사용률과 포화도는 구분 필요. 예: 메모리는 사용률과 포화도 모두로 모니터링 가능

예시 (SLI-SLO-L-USE 매핑)

SLI SLO 기준 L-USE 구분
CPU 사용률 80% 미만 포화도
힙 사용률 80% 미만 포화도
에러율 1% 미만 오류
최대 레이턴시 100ms 미만 레이턴시

4. 디버깅 도구의 역할

  • APM: 추적, 로그, 가용성 신호 통합
  • 샘플링 방식으로 비용 절감 가능 (모든 데이터 수집은 비효율적)
  • 메트릭 < 로그 < 추적 순으로 정밀하지만 비용 상승

5. 실패 예측과 수용

  • 시스템은 항상 실패 가능성을 가짐
  • 완벽함보다 신속한 복구와 대응이 중요
  • 마이크로서비스 특성상 통제 불가능 요소 다수 (네트워크, 서드파티 등)
  • 사용자도 즉각적 복구를 더 중요하게 여김 → ‘서비스 회복의 역설’
  • SLA 목표 중심의 복원력 강화 및 장애 최소화 필요

6. 신뢰 관계 구축을 위한 모니터링 전략

  • 일부 기업은 엔지니어링을 서비스 조직으로 간주
  • 콜센터 기반 일방향 소통에 의존 → 문제 은폐 및 전달 지연
  • 사용자 중심 모니터링 도입 필요 (양방향 소통 기반)
  • 장애 분석을 통해 맥락 파악 및 사전 대응 가능
댓글