[Uptime Kuma] Custom Script 기반 Health Check 구현기
in Dev / Monitoring on Uptime-kuma, Healthcheck, DevOps, Monitoring
최근 사내 모니터링 시스템을 구축하면서 Uptime Kuma를 도입했다. 하지만 사용하다 보니 단순히 “서버가 떠있는지”를 확인하는 것을 넘어, “API가 올바른 데이터를 내려주는지” 검증해야 하는 요구사항이 생겼다.
in Dev / Monitoring on Uptime-kuma, Healthcheck, DevOps, Monitoring
최근 사내 모니터링 시스템을 구축하면서 Uptime Kuma를 도입했다. 하지만 사용하다 보니 단순히 “서버가 떠있는지”를 확인하는 것을 넘어, “API가 올바른 데이터를 내려주는지” 검증해야 하는 요구사항이 생겼다.
운영하던 서비스에서 최근 Redis와 관련한 무서운 장애가 있었다. 정확히는 Reactor의 스레드 동작 방식에 대한 이해 부족으로 인해 발생했던 문제인데, 이와 관련해 기록을 남겨보려 한다.
Project Reactor를 사용하면서 겪었던 아주 치명적인(Critical) 장애 경험을 정리해본다.
Reactor의 에러 처리 연산자인 retryWhen과 onErrorContinue를 함께 사용했다가, 스트림이 영원히 종료되지 않는(Hang) 현상을 겪었다.
in Devops / Monitoring on Pinpoint, Docker, Pinot, DevOps, Troubleshooting
EC2 인스턴스에 pinpoint-docker 리포지토리를 기반으로 Pinpoint를 구축하여 운영하던 중, 예기치 못한 장애를 겪었다. 잘 동작하던 모니터링 시스템이 EC2 인스턴스를 재시작한 직후, URI Stat 화면 등 주요 기능에 진입이 불가능해졌고 로그에는 알 수 없는 Connection Timeout 오류가 발생했다.
Spring 프로젝트에서 OAuth2.0 인스타그램 로그인을 구현하던 도중 생기는 문제
in Algorithm on Programmers
in Algorithm on Programmers
in Algorithm on Programmers