지난주, 익숙한 블루스크린(BSOD)이 단순한 짜증거리가 아니라 전 세계에 경종을 울리는 역할을 했다. 결함이 있는 크라우드스트라이크(CrowdStrike) 업데이트로 인해 마이크로소프트 IT가 중단되어 상호 연결된 기술 시스템에 취약점이 드러났다.
마이크로소프트에 따르면 이 사고로 인해 전 세계 약 850만 대의 윈도우 디바이스가 영향을 받았으며, 이는 전 세계 전체 윈도우 디바이스의 1% 미만에 해당한다.
그러나 그 영향은 항공사, 은행, 병원, 응급 서비스 등 다양한 분야에 영향을 미칠 정도로 심각하고 중대했다. 클라우드 중단 분석 전문업체인 파라메트릭스 보험은 이 사고로 인해 미국 포춘 500대 기업에 약 54억 달러의 직접적인 손실이 발생한 것으로 추정했다.
이번 정전은 단순한 불편을 넘어 단 한 번의 장애로 전 세계의 절반이 멈출 수 있는 미래를 엿볼 수 있는 사건이었다. 이 정도 규모의 정전은 모든 것이 서로 연결되어 있지만 복원력이 부족한 기술 디스토피아로 향하고 있는 것은 아닌지 우려를 불러일으킨다.
번들 서비스와 관련된 위험을 조사하고 다양한 전문가 의견을 수렴하여 우리가 배워야 할 교훈을 종합적으로 분석한다.
주요 내용
- 레드센트릭의 CTO인 폴 마들링은 IT 중단 시 영향을 줄이기 위해 독립적인 시스템이 필요하다고 강조했다.
- 아르시움의 CEO인 야닉 슈라데는 중앙 집중식 독점 시스템의 위험성을 경고하며 블록체인 기술과 같은 탈중앙화된 대안을 제시했다.
- 뉴욕대 겸임 교수인 니콜라스 리스는 소프트웨어 공급망의 투명성을 옹호하며 공급업체가 사이버 보안을 강화하기 위해 중요한 경로를 공개할 것을 촉구했다.
- SOTI의 부사장인 샤쉬 아난드는 소프트웨어 버그와 데이터 유출을 방지하기 위한 강력한 엔터프라이즈 모빌리티 관리 솔루션과 포괄적인 보안 접근 방식의 중요성을 강조했다.
- 전문가들은 기업이 위험 분석을 수행하고, 높은 수준의 안전 표준을 구현하며, 향후 IT 중단의 영향을 완화하기 위해 비상 사태에 대비하는 것이 중요하다고 한 목소리로 강조했다.
시간이 지나도 지속되는 연결된 IT 서비스의 문제점
크라우드스트라이크는 최근 발생한 마이크로소프트의 윈도우 시스템 다운타임에 대한 해결책을 제시했지만, 이 사건은 상호 연결된 에코시스템 내에서 대규모 중단이 발생하는 불안한 패턴을 여전히 보여준다.
최근 몇 년 동안 발생한 몇 가지 유명한 서비스 중단 사례는 단 한 번의 오류로 인해 엄청난 혼란이 발생할 수 있는 기술 인프라의 취약성을 지적한다.
2020년 12월, 구글은 자동화된 저장 용량 할당량 관리 시스템의 일상적인 문제로 인해 전 세계적으로 서비스 중단이 발생한 바 있다.
이 내부 문제로 인해 지메일, 유튜브, 구글 워크스페이스가 47분 동안 중단되어 수백만 명의 사용자에게 영향을 미쳤으며, 긴밀하게 통합된 시스템 내에서 사소한 변화도 예기치 못한 결과를 초래하여 모든 것을 무너뜨리는 도미노 효과를 가져올 수 있다는 것을 보여주었다.
일반적으로 이중화를 위해 설계된 클라우드 제공업체도 예외는 아니다. 2021년 12월, 아마존 웹 서비스(AWS)는 미국 동부 1지역에서 대규모 서비스 중단을 경험했다. 국지적인 문제였지만 클라우드 서비스의 중앙 집중식 특성으로 인해 광범위한 영향을 미쳤다.
이에 따라 AWS 인프라에 의존하는 수많은 온라인 서비스 및 웹사이트가 중단되는 문제가 발생했다.
마찬가지로 2021년에 메타는 단순한 라우터 설정 오류로 인해 6시간 동안 서비스 중단이 발생하여 페이스북, 인스타그램, 왓츠앱이 다운되는 등 전 세계적으로 혼란을 겪었다.
이와 같은 사고는 네트워크의 한 부분에서 한 번의 잘못된 설정이 파급 효과를 일으켜 여러 플랫폼을 동시에 중단시킬 수 있는 상호 연결된 시스템의 취약성을 보여준다.
복원력이 부족한 번들 IT 서비스의 비효율성
세계 최고의 IT 기업들이 가지고 있는 주요 특징 중 하나는 대부분의 핵심 IT 서비스를 하나의 우산 아래 통합하려는 시도이다. 지난 10년 동안 마이크로소프트, AWS, 구글, 메타와 같은 기업들은 클라우드 인프라부터 생산성 소프트웨어, 심지어 하드웨어에 이르기까지 전체 제품군을 포함하도록 서비스를 확장해 왔다.
마이크로소프트가 가장 최근에 심각한 IT 다운타임을 경험한 피해자이긴 하지만, IT 서비스를 통합 플랫폼으로 통합하는 추세는 윈도우 제조업체에만 국한된 것이 아니다. 구글이나 메타와 같은 다른 거대 기술 기업들도 비슷한 전략을 추구하고 있다. 예를 들어 구글은 검색, 이메일, 클라우드 스토리지, 생산성 도구를 구글 워크스페이스 제품군에 통합하여 한 서비스에서 문제가 발생하면 전체 제품군에 영향을 미칠 수 있다.
마찬가지로 메타에서도 페이스북, 인스타그램, 왓츠앱을 통합하면서 여러 플랫폼에 동시에 영향을 미치는 서비스 중단이 발생한 바 있다.
즉, 이러한 거대 기술 기업은 높은 수준의 상호 연결성을 달성하고 제품 및 서비스 제공을 확장하기 위해 종종 타사 공급업체에 크게 의존할 수밖에 없다. 따라서 취약점은 항상 거대 기술 기업 자체에 있는 것이 아니라 이들이 의존하는 타사 공급업체의 광범위한 에코시스템에 존재한다.
이러한 전략은 시장 지배력을 유지하는 데 도움이 되지만, 문제가 발생하면 심각한 결과를 초래하는 경우가 많다. 번들로 제공되는 IT 시스템 관리의 복잡성으로 인해 이러한 시스템을 중심으로 강력한 복원력을 구축하는 것이 훨씬 더 어려워졌다.
시스템 독립성 강화의 필요성
많은 IT 전문가에게 이 솔루션은 복원력을 구축하는 것뿐만 아니라 기술 서비스를 통합하려는 경쟁을 줄이는 데에도 도움이 된다.
IT 서비스 제공업체 레드센트릭의 CTO인 폴 마들링은 테코피디아와의 인터뷰에서 독립 시스템이 IT 중단의 영향을 최소화할 가능성이 더 높다고 말했다.
“솔루션의 일부로 여러 독립 시스템을 사용하면 단일 구성 요소에 문제가 발생할 경우 그 영향을 줄이는 데 도움이 될 수 있다. 긴밀하게 통합된 솔루션과 달리 문제가 한 구성 요소에서 다른 구성 요소로 확산될 가능성이 적다.”
아르시움의 CEO이자 공동 창립자인 야닉 슈라데는 테코피디아와의 인터뷰에서 중앙 집중식 독점 시스템과 단일 장애 지점이 있는 공급망에 대한 과도한 의존으로 인해 세계가 절벽에 서 있다고 생각한다.
그는 다음과 같이 말했다:
“전 세계적인 IT 중단 사태는 중앙 집중식 독점 시스템과 공급망에 대한 의존과 관련된 한계와 위험을 보여준다.
이 사건은 병원, 기업, 기존 금융 시스템이 모두 쉽게 무너질 수 있는 불안정한 기반 위에 놓여 있는 현재의 인터넷 인프라에 단일 장애 지점이 얼마나 깊이 스며들어 있는지를 잘 보여준다.”
그는 또한 중앙 집중식 인프라를 넘어설 필요성을 강조하며, 이는 IT 서비스에 대한 레거시 접근 방식이라고 설명했다.
“중앙집중식 인프라는 교체가 필요한 낡은 방식이다. 블록체인 기술, 특히 탈중앙화된 기밀 컴퓨팅은 절실히 필요하고 현실적인 대안이다.”
뉴욕대학교 겸임 교수인 니콜라스 리스는 긴밀하게 통합된 기술 솔루션과 관련된 복잡성과 위험 증가에 대한 우려를 표명하고 있다.
그는 이러한 패키지가 편리함에도 불구하고 기술과 인적 오류의 ‘위험한 조합’이 될 수 있다고 주장한다. 리스는 특히 소프트웨어 공급망의 투명성 부족에 대해 우려하고 있다.
“긴밀하게 묶인 기술 솔루션이 계속 유지되려면 경고 라벨이 붙어 있어야 한다.”고 리스는 설명한다.
그는 공급업체가 소프트웨어의 세부 정보를 공개해야 하는 시스템을 도입하여 중요 경로를 파악하고 이 정보를 CISA와 같은 정부 기관과 공유할 것을 제안한다. 그는 이것이 사이버 보안을 강화하는 동시에 민감한 정보를 보호하는 데 필수적이라고 주장했다.
향후 글로벌 IT 서비스 장애에 대비하기 위해 기업이 취해야 할 단계
레드센트릭의 CTO인 마들링은 향후 IT 중단의 영향을 최소화하기 위해 상호 연결된 IT 서비스에 대한 위험 분석부터 시작하여 우발 상황에 대비해야 한다고 조언한다.
“핵심은 특정 번들 기술과 관련된 위험을 평가하고 이를 기업의 위험 허용 범위 및 해당 위험이 현실화될 경우의 잠재적 영향과 비교하는 것이다.”
“특정 시스템 손실의 영향이 어떤 비즈니스에는 미미할 수 있지만 다른 비즈니스에는 심각한 운영 문제를 초래할 수 있기 때문에 모든 비즈니스에 적합한 솔루션은 없다.”
리즈 교수는 높은 안전 기준을 의무화하는 계약서 문구를 우선적으로 도입할 것을 권장한다. “기술 공급업체의 취약성은 곧 여러분의 취약성이기도 한다.”라고 경고했다.
작업을 시작하기 전에 엄격한 보안 조치를 계약서에 포함시킴으로써 기업은 공급업체에 책임을 묻고 잠재적인 침해로부터 스스로를 보호할 수 있다고 그는 조언한다.
엔터프라이즈 모빌리티 솔루션 제공업체인 SOTI의 제품 전략 부사장인 샤쉬 아난드는 소프트웨어 버그의 지속적인 위협과 보안 업데이트의 중요성에 대해 강조한다.
모바일 디바이스로 인한 데이터 유출이 주요 보안 문제로 대두되고 있는 가운데, 아난드는 강력한 엔터프라이즈 모빌리티 관리(EMM) 솔루션의 필요성을 강조한다. 그는 기업이 위험을 효과적으로 관리하기 위해 맞춤형으로 확장 가능한 기술 스택에 집중해야 한다고 조언한다.
또한 아난드는 정기적인 감사, 이중화, 모듈식 솔루션, 직원 교육 등 보안에 대한 좀 더 다각적인 접근 방식을 권장한다.
결론
마이크로소프트의 서비스 중단은 초연결 세상의 위험성을 드러냈다. 번들로 제공되는 기술 솔루션은 대기업에 효율성과 재정적 이점을 제공하지만, 동시에 붕괴되기 쉬운 불안정한 시스템을 만든다. 최근 구글, 아마존, 메타에서 발생한 장애는 단일 장애 지점으로 인한 광범위한 장애의 위험을 잘 보여준다.
전문가들은 이러한 위험을 줄이기 위해 보다 독립적인 시스템을 구축해야 한다고 주장하지만, 이는 통합 솔루션에 대한 추진과 균형을 이루어야 한다. 기업과 개인은 보안, 투명성, 이중화에 우선순위를 두어야 한다. 보다 탄력적인 디지털 미래를 구축하는 것은 거대 기술 기업, 정책 입안자, 사용자 모두의 공동 책임이다.
출처
- Helping our customers through the CrowdStrike outage – The Official Microsoft Blog (Blogs.microsoft)
- In the News – Parametrix – Cloud Insurance (Parametrixinsurance)
- Summary of the AWS Service Event in the Northern Virginia (US-EAST-1) Region (Aws.amazon)
- Managed IT Service Provider UK | Cutting-Edge Enterprise IT Solutions | Redcentric (Redcentricplc)
- Arcium | The first parallelized confidential computing network (Arcium)
- SOTI | Enterprise Mobility Solutions (Soti)