페이스북 서비스 다운의 원인과 교훈

1. #페이스북다운 (#facebookdown)

최근 메타(Meta)라는 사명으로 변경하고 메타버스 기업으로의 변신을 선언한 페이스북의 세계 최대 소셜 네트워크 서비스(SNS)인 페이스북과 그 계열 서비스인 인스타그램, 왓츠앱, 오큘러스 서비스 등이 6시간 동안 접속이 안되는 장애가 발생하였다.

처음 장애가 시작된 것은 2021년 10월 4일 오전 11시 40분(미국 현지시간 기준) 경이었고 그때부터 약 6시간가량 페이스북은 사실상 인터넷에서 사라진 존재가 되었다.

장애 발생후 페이스북의 첫 논평은 평범했다.

“일부 이용자들이 우리 앱과 제품들에 접속하는 데 문제를 겪고 있다는 사실을 알고 있다. 최대한 빨리 정상화하기 위해 노력하고 있다. 불편을 끼쳐 죄송하다.”

하지만 내부 상황은 더 심각했고, 페이스북 직원들은 사무실에 들어가는 것도, 이메일에 접속하는 것도 불가능했다.

결국 페이스북 직원들은 줌(Zoom) 같은 다른 플랫폼을 활용해 회의를 해야만 했다. 페이스북 글로벌 보안팀은 직원들에게 “보안시스템과 내부 일정표, 일정관리 도구 등 페이스북의 모든 내부 시스템과 도구에 영향을 미치는 시스템 중단이 발생했다”고 내부 메모를 보낸 것으로 알려졌다.

페이스북 접속장애로 인해 페이스북의 최고기술책임자(CTO)인 마이크 슈뢰퍼는 페이스북의 경쟁사인 트위터를 통해 “페이스북 서비스 장애로 타격을 받은 모든 분들에게 진심으로 사과드린다”는 글을 올렸다.

페이스북이 서비스 장애 사과 메시지를 트위터에 올리는 놀라운 상황이 발생한 것이다.

이날 서비스 장애 기간 동안 트위터의 트래픽은 폭발적으로 늘어났다.

페이스북, 인스타그램, 왓츠앱 옆에 트위터가 우뚝 서 있는 모습을 담은 ‘오징어 게임’ 패러디 사진들이 인기를 끈 것은 이 때문이었다.

이번 사건으로 페이스북의 모든 플랫폼에서는 6시간 이상 광고가 뜨지 못했다.

이와 관련해 미국 경제지 '포브스'는 페이스북이 6시간 동안의 접속 중단으로 광고주가 이탈하며 6600만달러(약 790억원)의 손실을 입었다고 추정했다. 또한 이번 사건으로 페이스북 주가가 5%가량 하락하면서 창업자인 마크 주커버그(Mark Zuckerberg)의 개인 재산 가운데 무려 60억 달러(약 7조1590억원)가 증발했을 것으로 추정했다고 한다.

2. 페이스북 장애의 원인

이번 장애와 관련되어 페이스북의 엔지니어링 인프라 담당 부사장 산토시 야나르단은 공식블로그(https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/)를 통해 장애의 원인과 복구과정에 대한 글을 남겼다.

인프라 담당 부사장인 산토시 야나르단이 게시한 글의 내용을 요약하면 아래와 같다.

이 중단은 글로벌 백본 네트워크 용량을 관리하는 시스템에 의해 유발되었습니다.

(백본은 Facebook이 모든 컴퓨팅 시설을 함께 연결하기 위해 구축한 네트워크이며 이 네트워크는 전 세계를 가로질러 모든 데이터 센터를 연결하는 수만 마일의 광섬유 케이블로 구성됨)

일상적인 유지 관리 작업 중 하나에서 글로벌 백본 용량의 가용성을 평가하기 위한 명령이 실행되었고, 이 명령은 의도하지 않게 백본 네트워크의 모든 연결을 끊고 전 세계적으로 Facebook 데이터 센터의 연결을 끊었습니다.

이와 같은 실수를 방지하기 위해 이와 같은 명령을 감사하도록 설계되었지만 해당 감사 도구의 버그로 인해 명령이 제대로 중지되지 않았습니다.

이러한 모든 일이 매우 빠르게 일어났으며, 엔지니어들이 무슨 일이 일어나고 왜 그런지 알아내려고 노력했지만 두 가지 큰 장애물에 직면하였습니다. 첫째, 네트워크가 다운되어 정상적인 수단을 통해 데이터 센터에 액세스할 수 없었고 둘째, DNS 전체 손실의 발생이었습니다.

기본 및 대역 외 네트워크 액세스가 중단되어, 엔지니어를 데이터 센터로 보내 문제를 디버깅하고 시스템을 다시 시작하도록 하였으나, 데이터센터는 높은 수준의 물리적 및 시스템 보안을 염두에 두고 설계되었기 때문에 서버접근 및 보안 프로토콜 활성화 처리에 추가 시간이 걸렸습니다.

백본 네트워크 연결을 복원하였으나 전체 서비스를 한 번에 다시 켜면 트래픽 급증으로 인해 잠재적으로 새로운 충돌이 발생할 수 있으므로, 주요 시스템 오류를 시뮬레이션하는 “Storm” 훈련의 경험을 통해 작업을 다시 온라인으로 전환하고 증가하는 부하를 신중하게 관리할 수 있는 자신감과 경험을 통해 시스템 전반에 걸친 추가 장애 없이 비교적 빠르게 복구하였습니다.

이전에는 우리의 글로벌 백본이 오프라인으로 전환되는 상황에 대한 훈련을 실행한 적이 없지만 앞으로 이와 같은 이벤트를 시뮬레이션할 방법을 확실히 찾을 것입니다.

이와 같은 모든 실패는 배우고 더 나아질 수 있는 기회이며, 우리는 이를 통해 배울 수 있습니다. 크고 작은 모든 문제가 발생하면 시스템을 보다 탄력적으로 만들 수 있는 방법을 이해하기 위해 광범위한 검토 프로세스를 수행합니다. 그 과정은 이미 진행 중입니다.

3. 최근 인터넷 관련 장애 사례

페이스북의 이번 장애 외에도 최근 인터넷 서비스 장애를 살펴보면 다음과 같다.

장애시기	내용
2021년 10월	페이스북, 인스타그램, 왓츠앱이 '구성 오류'로 인해 약 6시간 동안 운영이 중단. 트위터와 같은 동종 사이트도 방문자 급증으로 인해 접속 중단발생
2021년 7월	에어비앤비, 엑스피디아, 홈 디포, 세일즈포스를 비롯해 48개 이상의 인터넷 서비스가 콘텐츠 전송 네트워크 기업 ‘아카마이’의 DNS 버그로 인해 약 1시간 동안. 해당 기업은 유사한 결함으로 인해 사건 발생 한 달 전에도 운영이 중단된 바 있음
2021년 6월	클라우드 컴퓨팅 서비스 제공업체 ‘패스틀리’의 한 고객이 실수로 이전까지 알려지지 않은 버그를 촉발하면서 아마존, 레딧, 트위치, 깃허브, 쇼피파이, 스포티파이 및 서너 개의 뉴스 사이트가 약 1시간 동안 운영 중단
2020년 12월	구글이 ‘내부 저장소 할당량 문제’가 발생했다고 밝힌 후 지메일, 유튜브, 구글 드라이브 및 기타 구글 서비스가 동시다발적으로 약 90분간 운영 중단
2020년 11월	미국 버지니아주 소재 아마존 웹 서비스 시설 중 한 곳에서 발생한 기술적 문제로 인해 북미 지역에 위치한 수천개의 타사 온라인 서비스에 몇 시간 동안 문제 발생
2019년 3월	'서버 구성 변경' 후 약 14시간 동안 페이스북, 인스타그램, 왓츠앱이 모두 접속이 어렵거나 중단. 페이스북 로그인을 사용하는 틴더, 스포티파이 및 일부 다른 사이트도 영향을 받음.

페이스북 등 주요 웹사이트의 장애는 전 세계 사용자들과 기업들에 연쇄적인 영향을 미친다.

페이스 북, 인스타그램, 왓츠앱 등의 직접적인 앱 사용 이외에도 페이스북 간편로그인과 같이 페이스북의 기능을 사용하는 다양한 서비스에도 영향을 미치므로 그 범위는 상상하기 어렵다.

분명한 점은 수십억의 사람들이 재미뿐만 아니라 중요한 연락과 상거래를 위해서 페이스북 등의 웹 서비스에 상당히 의존한다는 사실이다.

이번 사태를 분석하는 다운디텍터는 전 세계에서 약 1060만 건의 문제가 보고됐으며, 이는 역대 최고 기록이라고 밝혔다.

대부분의 많은 사람들에게 이번 사태는 단지 불편한 해프닝일 수 있으나, 개발도상국의 일부 소규모 기업들이나 아프카니스탄 탈출을 준비하던 난민들처럼 소통을 위한 신뢰할 만한 대체수단이 없는 경우, 더 심각한 문제가 될 수 있다.

분명한 사실은 이번 일이 일회성은 아니라는 점이다.

전문가들은 광범위한 규모의 인터넷 '먹통' 사태가 더 빈번해지고 파급력도 더 커졌다고 지적한다.

웹사이트 접속 장애 여부를 모니터링하는 '다운디렉터'의 기술 책임자 루크 데릭스는 "지난 몇 년 동안 우리는 인터넷 컨텐츠 제공에서 소수의 네트워크 업체에 대한 의존도가 높아지는 것을 지켜봐 왔다."고 말했다.

데릭스의 팀은 웹 서비스와 웹사이트 접속 중단 여부를 모니터링한다. 그는 주요 인터넷 서비스에 영향을 미치는 광범위한 규모의 먹통 사태가 점점 더 빈번해지고 심각해지고 있다고 말했다.

"페이스북에 문제가 생기면 인터넷은 물론 경제, 사회에 큰 영향을 미친다. 수백만 또는 잠재적으로 수억 명의 사람들은 캘리포니아에 있는 소규모 팀이 문제를 해결할 때까지 그저 기다려야 한다. 이는 지난 몇 년 동안 증가하고 있는 흥미로운 현상이다."

불가피하게 대규모 인터넷 서비스 중단이 발생하면 사람들은 사이버 공격으로 인해 접속 장애가 발생한 것은 아닌지 걱정한다.

그러나, 전문가들은 사람이 일으킨 단순 오류가 문제의 원인일 경우가 휠씬 더 흔하다고 지적하며, 인터넷이 구식의 복잡한 시스템과 함께 유지되는 탓이라고 설명한다.

인터넷 과학자 빌 뷰캐넌 교수는 이러한 상황에 다음과 같은 의견을 제시했다..

"인터넷은 인터넷의 원형을 설계한 미 국방부 연구기관 '방위고등연구계획국(DARPA)'이 구축하려던 대규모 분산 네트워크가 아니다. (분산 네트워크는) 일부가 핵 공격을 받아도 작동할 수 있도록 설계됐다.”

"현재의 인터넷 접속은 기본적으로 개별 단말기가 대형 중앙 컴퓨터에 연결되는 것이다. 핵심 기반시설에서 발생한 단 하나의 오류가 전체 시스템을 망가트릴 수 있다."

뷰캐넌 교수는 인터넷의 구조를 재구축하는 대신 인터넷에서 데이터를 저장하고 공유하는 방식을 개선해야 한다고 지적했다. 그렇지 않으면, 앞으로 더 많은 먹통 사태가 발생할 위험이 있다는 것이다.

그는 인터넷이 지나치게 중앙 집중화됐다고 주장했다. 즉, 너무 많은 데이터가 한 개의 공급원에서 나온다는 것이다. 그는 이러한 경향을 여러 개의 접합점이 있는 구조로 바꿔야 한다고 말했다. 그래야 단 한 개의 오류가 전체 서비스 작동을 멈추는 사태를 막을 수 있다는 주장이다.

4. 중앙 집중화된 인터넷과 탈중앙화

세계적인 미래학자 조지 길더는 저서 '구글의 종말(원제 : Life After Google)'을 통해 "구글의 중앙 집중화된 인터넷은 결국 블록체인으로 대표되는 탈중앙화 인터넷에 의해 대체될 것이다. 구글의 시대도 끝날 것"이라고 했다.

길더는 '텔레비전 이후의 삶'을 통해 TV 시대가 종식되고, 인터넷과 네트워크의 시대가 올 것이라고 예견한 바 있다.

저자는 구글식 세상이 종말을 맞이하고, '크립토코즘'(crypto-cosm·암호와 우주의 합성어)이 등장할 것이라고 했다.

크립토코즘은 블록체인(분산 저장 기술)을 활용해 중앙집권화돼 있는 데이터와 개인 정보를 각 개인에게 분배하고, 이를 안전하게 지켜낼 수 있는 체계다. 크립토코즘에서는 보안이 최우선이며, 절대 공짜란 없다.

또 AI가 인간을 대체하는 것이 아니라, 인간이 모든 데이터 관리와 의사결정의 권한을 갖게 될 것이라고도 강조한다.

저자는 비트코인·이더리움 같은 유명 가상 화폐에다 광고 중개형 베이식 어텐션 토큰(BAT), 수퍼컴퓨팅을 위한 골렘 네트워크 토큰(GNT)같이 생소한 블록체인 기술·서비스를 소개하면서 이런 시도들이 모여 크립토코즘을 만들고, 구글을 비롯한 중앙 집중화된 실리콘밸리 기업들을 해체시킬 것이라고 했다.

이는 2009년 비트코인을 처음 창시한 사토시 나카모토를 중심으로 한 블록체인 진영이 주장한 탈중앙화와 일맥상통한다.

5. 1부를 정리하면서

아마존의 부사장인 버너 보겔스는 ‘소프트웨어는 모두 실패한다’라고 말한 바 있다.

즉 시스템은 언제든 실패할 수 있ㅇ으며, 실패해서 더는 진행할 수 없을 때도 자연스럽게 대응할 수 있도록 설계해야한다는 말이다. 이러한 성격을 내결함성이라고 한다.

예전의 시스템 아키텍처는 무결함이나 실패 무결성을 추구했다.

시스템이 다운되지 않고 중단되지 않기 위해서는 완벽을 추구해야하며 강건해야했다.

그렇지만 버너 보겔스의 말처럼 어떤 시스템도 실패하지 않을 수는 없다.

실패하지 않는 시스템을 만드는 것보다 실패에 빠르게 대응할 수 있는 시스템을 만다는 편이 더 쉽고 효율적이다.

우리는 위에서 이야기한 페이스북의 장애와 최근 인터넷의 다양한 장애증가와 관련하여 장애를 회피하거나 장애에 대한 빠른 대처를 위해 아래와 같은 교훈을 생각해 볼 수 있다.

첫번째, 우선 기본부터 지키기 : 유지보수 오류 방지를 위한 노력

- 인적 오류의 방지를 위한 최대한의 방지책 마련과 준비

- 운영시스템과 독립적인 테스트 환경에서 사전 검증된 명령어를 이용한 테스트 실시 필요

- 명령어 감사도구 버그에 의한 명령어 중지 실패로 인한 장애확산을 줄이기 위해 Critical 한 명령어에 대한 정기적인 테스트 및 버그 Fix가 필요함

두번째, 유비무환(有備無患)의 실천 : 장애 상황에 대한 다양한 장애 테스트와 시뮬레이션, 장애 대응력 강화

- 다양한 시나리오를 통한 장애 시뮬레이션과 테스트 수행

- 글로벌 백본이 오프라인으로 전환되는 상황에 대한 장애 시뮬레이션 부재로 인한 장애처리 지연 방지를 위해 다양한 장애 상황에 대한 장애 복구 테스트 및 장애 대응력 강화가 필요함

세번째, 미래에 대한 준비 : 정보의 탈중앙화 등 미래 인터넷에 대한 준비

- 블록체인, IFPS와 같은 기술의 발전과 함께 지속적으로 증가하는 인터넷망에 대한 의존성과 특정 IT공룡 기업들에 집중화되는 정보의 중앙화를 탈피하기 위한 노력과 시도가 필요함

- ETRI의 ‘데이터중심 네트워킹 기반기술’과 같이 미래의 새로운 네트워크 환경을 수용하기 위한 미래인터넷 기술 연구의 활성화 필요

¢ 참고자료

나무위키 - https://namu.wiki/w/페이스북
ZDNet Korea - https://zdnet.co.kr/view/?no=20211005095816
페이스북 블로그 - https://engineering.fb.com/2021/10/05/networking-traffic/outage-details/
BBC News Korea - https://www.bbc.com/korean/international-58890157 https://www.bbc.com/korean/news-58825296
Phemex - https://phemex.com/ko/blogs/web-30-the-decentralized-internet-of-the-future
크리스딕슨 – https://onezero.medium.com/why-decentralization-matters-5e3f79f7638e https://brunch.co.kr/@asthedaysgoby/32
해시넷 위키 - http://wiki.hash.kr/index.php/IPFS

http://wiki.hash.kr/index.php/웹_3.0

김정우 다른 콘텐츠 보기