OSC Korea Blog

다양한 소식을 전합니다.
News

[클라우드 임팩트 2021] 그렘린-OSC, “백신 맞듯 카오스 엔지니어링으로 장애 선제 대응”

2021년 06월 18일 디지털데일리
원문보기
사진제공 오에스씨코리아

[디지털데일리 백지영기자] “마이크로 서비스 아키텍처(MSA) 등 매우 복잡하게 구축된 시스템에서 전통적인 테스팅은 충분치 않습니다. 엔지니어에게 실제 장애 상황에 대응할 기회를 줘야 합니다, 10년 전 넷플릭스에 ‘카오스 몽키’가 만들어진 이유이기도 합니다.”


17일 디지털데일리 DD튜브에서 개최된 ‘클라우드 임팩트 2021’ 버추얼 컨퍼런스에서 콜튼 앤드러스 그렘린 최고경영자(CEO)는 “마치 코로나 상황에서 백신을 맞고 예전과 비슷한 생활로 돌아갈 수 있듯, 우리가 배포하는 시스템에도 백신을 주입해 장애를 미리 테스트해 대응할 수 있는 방법을 가르치는 것이 필요하다”고 강조했다.


그렘린은 장애를 시뮬레이션하고 이에 대한 취약적을 분석해 대응책을 마련해주는 솔루션이다. 카오스 엔지니어링을 위한 ‘FaaS(Failure-as-a-Service)’로도 불린다. 앤드러스 CEO는 아마존과 넷플릭스의 가용성 팀에서 근무한 경험을 바탕으로 2016년 그렘린을 창업했다.


카오스 엔지니어링은 DVD 대여업을 하던 넷플릭스가 비디오 스트리밍을 위한 분산 클라우드 시스템으로 전환하던 시기에 처음 고안한 ‘카오스 몽키(Chaos Monkey)’에서 시작됐다. 이는 제어 가능한 수준의 장애를 시스템에 의도적으로 투입해 시스템의 취약점을 찾아내고 회복탄력성을 높이는 것이 목적이다.


그렘린은 지난해 7월 OSC코리아와 파트너십을 체결하고 국내 카오스 엔지니어링 시장에 본격 진입했다. OSC코리아는 디지털 트랜스포메이션을 위한 오픈소스 솔루션을 제공하는 기업이다. 이미 그렘린을 카카오페이 등을 비롯한 국내 몇 곳의 대기업에 공급하는 성과를 거뒀다.

앤드러스 CEO는 “웹사이트나 서비스에 장애가 발생하면, 단순히 관련 제품이나 서비스를 사용하지 못하는 것은 물론이고 회사에 심각한 손실을 안기며 더 나아가 고객 신뢰도 잃을 수 있다”며 “올해 초 발생한 슬랙의 대규모 장애가 대표적”이라고 지적했다.


실제 최근 많은 기업이 클라우드 환경의 전환을 가속화하면서 클라우드 네이티브 애플리케이션(앱) 개발과 함께 클라우드 자원을 효율적으로 활용하기 위해 MSA 도입을 검토하는 기업이 늘고 있다.


MSA는 앱을 핵심 기능으로 세분화해 각각 기능을 독립 서비스로 구성·구축·배포하고 각 서비스 간 통신을 API로 설계하는 방법론이다. 작은 단위로 쪼개진 서비스가 각각 독립 기능을 갖고 하나의 서비스를 동작하면서 빠르고 애자일한 서비스를 제공한다. 하지만 작은 단위로 쪼개진 서비스로 인해 장애가 발생할 수 있는 여지가 커졌다.


MSA 전환 과정에서 발생하는 서비스 다운타임은 비즈니스에 심각한 영향을 끼치는 단점을 안고 있다. 그렘린은 기업이 이러한 장애 상황에 선제 대응할 수 있도록 지원한다.


그는 “아마존이나 넷플릭스처럼 빠르게 혁신하고 높은 수준의 가용성 유지하고 싶다면, 접근방식을 바꿔야 한다”며 “이를 위해선 카오스 엔지니어링이 효과적인 방식이며, 이는 최소한의  시간을 들여 소프트웨어를 테스트하고 검증할 수 있도록 한다”고 강조했다.


그는 카오스 엔지니어링을 백신에 비유하기도 했다. 코로나19 상황에서 백신을 맞고 일상생활로 복귀할 수 있는 것처럼, 기업이 배포하는 시스템에도 똑같은 의미를 적용할 수 있다는 것이다.


그는 “이런 종류의 장애는 바이러스가 발생하는 것과 유사해 계속해서 번식하고 캐스케이딩 장애를 야기하며 시스템을 다운시킨다”며 “백신을 주입함으로써 신체가 항체를 트레이닝시키듯, 엔지니어들이 장애에 대응하는 방법을 가르쳐 대재앙급의 장애가 발생하더라도 아주 사소한 이슈로 바뀔 수 있게 한다”고 비유했다.


이를 통해 시스템이 일정 수준의 스트레스와 이슈를 견뎌내고 99%(1년에 3.5일의 장애가 발생하는 정도)에서 99.999%(5.3분) 수준의 가용성으로 높일 수 있도록 돕는다는 설명이다. 특히 클라우드 서비스 제공업체도 장애가 발생할 수 있음을 인지하고 이런 상황에서도 대응 계획을 세워 운영을 지속할 수 있도록 하는 것이 중요하다고 강조했다.


그는 또, 카오스 엔지니어링을 통해 얼럿(알람)과 모니터링을 검증하는 것도 필요하다고 조언했다. 그는 “처음 넷플릭스 API 팀에 들어갔을 때, 350개의 얼럿이 정의돼 있었지만 누구도 이를 건드리지 않았다”며 “추후 연습을 통해 모든 얼럿을 강제로 띄워 어떤 것이 정말 필요하고 대응이 필요한 것인지 검토하고 이를 45개로 정리했다”고 말했다.


정말 중요한 장애 모드만 남겨둬 시스템 장애가 났을 때 인지가 가능하도록 했다는 설명이다. 그는 “카오스 엔지니어링의 목적은 높은 회복탄력성을 가진 소프트웨어를 개발하는 것”이라며 “정기적으로 바이러스를 투입해 문제가 발생하기 전에 미리 대응하며, 소프트웨어가 자가회복·교정 매커니즘을 갖춰 신뢰할 수 있는 시스템을 구축하도록 하는 것이 그렘린의 목표”라고 강조했다.


한편 이날 웨비나에서 OSC 코리아 김대성 과장(데브옵스 엔지니어)은 그렘린의 다양한 기능을 시연하며 카오스 엔지니어링의 혜택에 대해 설명했다.


김 과장은 “카오스 엔지니어링은 시스템의 취약한 부분을 밝히기 위한 방법론으로 시스템이 정상 상태인지 확인하고, 장애에 가설을 세워 실험을 하고 결과를 통해 시스템을 보완하는 SaaS 기반의 툴”이라며 “GUI 기반으로 편하게 사용할 수 있고, 다양한 기능 통해 광범위하게 시스템을 검증해볼 수 있는 좋은 솔루션”이라고 강조했다.


<백지영 기자>jyp@ddaily.co.kr

Latest posts

1 / 8
Next