[Uptime Kuma] Custom Script 기반 Health Check 구현기

최근 사내 모니터링 시스템을 구축하면서 Uptime Kuma를 도입했다. 하지만 사용하다 보니 단순히 “서버가 떠있는지”를 확인하는 것을 넘어, “API가 올바른 데이터를 내려주는지” 검증해야 하는 요구사항이 생겼다.

Continue reading

Reactor retryWhen과 onErrorContinue

Project Reactor를 사용하면서 겪었던 아주 치명적인(Critical) 장애 경험을 정리해본다.
Reactor의 에러 처리 연산자인 retryWhenonErrorContinue를 함께 사용했다가, 스트림이 영원히 종료되지 않는(Hang) 현상을 겪었다.

Continue reading

[Pinpoint] Docker Compose 환경에서 Pinot 연결 Timeout 트러블 슈팅

EC2 인스턴스에 pinpoint-docker 리포지토리를 기반으로 Pinpoint를 구축하여 운영하던 중, 예기치 못한 장애를 겪었다. 잘 동작하던 모니터링 시스템이 EC2 인스턴스를 재시작한 직후, URI Stat 화면 등 주요 기능에 진입이 불가능해졌고 로그에는 알 수 없는 Connection Timeout 오류가 발생했다.

Continue reading

Pagination


© 2020.02. by blupine