JAVA 기반 서비스에서 운영할수 있는 APM Tool 을 선정하는 과정에서 스카우터를 선택하고 구성을 마친 경험을 다루어 보려고 한다.


1부에서는 선정한 이유와 스카우터 구조, 수집하는 지표 등에 대한 설명을 다룬다.

설치방법이 궁금하다면 공식 GitHub를 참조하자. 친절하게 한글로 설명이 잘 되어있다.


APM Tool 에 대하여

APM은 Application Performance Management 라고 한다. 어플리케이션의 성능을 관리하고 통제하는 도구라고 할 수 있다.
APM Tool은 수많은 종류가 있고 각각의 특징들이 있다.  

이 중에서도 공통적으로 APM 을 사용하는 이유를 내 기준에서 정리해 보았다.
  • 각 서비스 구간 별로 성능을 기록해 병목을 파악하고 미리 대응할 수 있다.
  • 기록에 근거해 현재 서비스에서 수용 가능한 트래픽을 예상해 볼 수 있다.
  • 알람 등 을 이용해 장애상황에 빠르게 대응할 수 있다.
  • 자원 사용률, GC상태 등의 정보를 이용해 잘못된 설계, 메모리 누수 등을 사전에 탐지 할 수 있다.


스카우터를 선택한 이유

오픈소스



한국 기여자 & 한국어 커뮤니티

스카우터는 한국개발자들이 주축으로 개발되는 오픈소스이다. 덕분에 한국어 자료가 많아서 좀 더 쉽게 이해할 수 있다.
가끔 영어 자료도 있지만 읽다보면 한국인이 쓴 영어 느낌이라 쉽게 읽히기도 하는 뜻밖의 장점도..

커뮤니티도 나름 잘 되어있다. 페이스북 그룹의 경우는 스카우터 개발자들이 직접 답글을 달아주기도 한다!..


빠른 버전업

최근에는 버전 업이 자주 있는 편이다. 
버그패치나 기능개선의 내용도 있고, 다양한 종류의 서비스를 지원하기 위한 확장도 있다. 

릴리즈 노트를 통해 활발히 버전업 되고 있다는것을 확인할 수 있다.




스카우터의 구성

스카우터는 크게 3부분으로 나누어져 있다.

에이전트(agent)

HostAgent 와 JavaAgent 로 나뉜다.
  • HostAgent : 단독으로 실행되며 서버 OS 혹은 DB 등에서 자료를 모아 수집기에 전달한다.
  • JavaAgnet : 모니터링하기 원하는 Java 어플리케이션에 포함된 채로 기동이 된다. JVM 수준에서 확인할수 있는 지표들을 수집기로 보낸다.

수집기(Collector)

에이전트에서 받은 지표들을 모아서 저장한다. 대부분의 지표는 UDP 를 이용하여 전송되기 때문에 부담이 적은 편이다.
클라이언트에서 요청하면 수집한 데이터를 내려준다.


클라이언트

수집기를 통해 지표들을 받아서 그래프로 표현해준다. 
JAVA로 만들어진 윈도우와 리눅스, 맥OS 버전이 모두 갖추어져 있다. 
기존의 
특정 조건을 걸어서 얼럿 을 받을 수 있도록 해준다.



지표 소개

스카우터로 모니터링 할 수 있는 지표들을 정리했다.

스카우터를 도입하기 위해 고민할 때, 스카우터에서 어떤 데이터를 제공해주는지 궁금했었다. 
물론 클라이언트-수집기-에이전트 를 구성하고 살펴보면 알수 있지만, 검토 단계에서 구성을 하는게 부담이 된 경험이 있다.
검토단계에서 궁금하신 분들을 위해 기본적인 지표들을 기준으로 정리하였다.

각 지표들을 기준으로 특정 수치를 넘었을 때, 얼럿을 할 수 있도록 세팅이 가능하다. 
얼럿 설정에 대해서는 다음에 다루도록 하겠다.


JVM 가비지 콜렉션 횟수, 시간


JVM 에서 진행항 GC 횟수와 소모시간이다



JVM 힙메모리 사용율


JVM 에서 사용하고 있는 힙메모리 사용율 이다.



자바 프로세스의 CPU 사용율


JVM 프로세스에서 사용중인 CPU 자원 사용량이다.



API Call 기록(XLog)


스카우터에서는 XLog 라고 부른다.
Http 요청 부터 해당 요청의 응답까지를 한 단위로 묶어서 처리시간 별 그래프를 그려준다.
시스템 부하여부를 직관적으로 확인할 수 있고, 한 요청에 딸린 요청들의 응답시간을 추적할 수 있다.


OS 및 JAVA 에러 얼럿


스카우터는 JVM에러, 디스크 사용양, 메모리 사용량 등 다양한 상황에 대한 얼럿을 지원한다. 



TPS


WAS 등에서 측정된 Http 요청을 기반으로 한 초당 처리량이다.



SQL 처리 시간


요청 별로 SQL 처리 시간을 보여준다. 얼럿 조건을 통해 특정 시간 이상 지연이 되면 얼럿을 받을수도 있다.


OS - CPU


Host에서 사용중인 시스템 전체 CPU 사용율이다.



OS - Memory


Host에서 사용중인 시스템 전체 메모리 사용율이다.



OS - DISK Read/Write Byte


Host에서 측정한 디스크 전체의 Read(Write) 사용치이다.



OS - Network Traffic


Host에서 측정한 네트워크 트래픽이다.



OS - Socket Count by status


Host에서 측정한 소켓연결 현황이다. 상태별로 조회가 가능하다.






마치며..

스카우터에서는 지표를 다양하게 제공하고 있지만, 이를 제대로 이해하고 보지 않으면 활용성이 떨어질 수 있다. 
그래서 각 지표에 대한 학습과 그 지표를 제대로 보기위한 설정들이 필요하다. 
또한 얼럿 커스터마이징을 통해 다양한 상황들을 인지하면서 시스템을 장악하는데 도움을 얻을 수 있다.
2부에서는 이들에 대해 다루도록 하겠다.


Posted by panpid
TAG ,

댓글을 달아 주세요

  1. 슈기양 2020.03.27 10:46  댓글주소  수정/삭제  댓글쓰기

    좋은 정보 감사합니다
    올려주신 포스팅 잘 볼게요^.^

  2. 늘품아빠 2020.07.10 17:52 신고  댓글주소  수정/삭제  댓글쓰기

    TPS 산정 기준이 궁금합니다. 일단 들오온 요청은 모두 카운트 되는건지, 에러 없이 정상 처리된 트랜잭션만 카운트 하는건지 궁금합니다.