Amazon S3 다운, 웹 2.0에 먹구름?

Amazon의 스토리지 대여 웹서비스인 S3가 15일 오전 5시(PST)부터 오전 9시까지 다운되어 S3 사용자들이 데이터를 전혀 볼 수 없거나 속도 저하를 경험했다고 한다.
아마존 스토리지 서비스 S3 장애… 웹 2.0 위기인가 (ZDNet 한글판)
Amazon S3 / EC2 / AWS outage this morning... (O'Reilly Radar)
Amazon S3 web services down. Bad, bad news for customers. (ZDNet Blog)

다운의 원인은 인증서버의 과부하로 인해 S3 요청을 처리하지 못했다는 것이다. 일부 사용자들이 인증요청을 과도하게 한 것이 과부하를 불러왔다고 한다. 아래는 Amazon 웹서비스팀에서 밝힌 사고의 내용이다.

Early this morning, at 3:30am PST, we started seeing elevated levels of authenticated requests from multiple users in one of our locations.  While we carefully monitor our overall request volumes and these remained within normal ranges, we had not been monitoring the proportion of authenticated requests.  Importantly, these cryptographic requests consume more resources per call than other request types.

Shortly before 4:00am PST, we began to see several other users significantly increase their volume of authenticated calls.  The last of these pushed the authentication service over its maximum capacity before we could complete putting new capacity in place.  In addition to processing authenticated requests, the authentication service also performs account validation on every request Amazon S3 handles.  This caused Amazon S3 to be unable to process any requests in that location, beginning at 4:31am PST.  By 6:48am PST, we had moved enough capacity online to resolve the issue.

(출처: Amazon Web Services Forum
Thread: Massive (500) Internal Server Error.outage started 35 minutes ago)

Amazon의 웹서비스를 거의 사용하지 않는 국내에선 그리 심각하지 않은 뉴스일지 몰라도 SmugMugPageFlakes와 같이 실제로 S3에 데이터를 맡겨둔 서비스의 경우 심장이 떨릴 뉴스일 것이다. (이 서비스들이 영향을 받았는지는 확인안됨)

물론 Amazon 웹서비스가 전면적으로 중단된 것은 아니고 일부를 담당하는 서버들이 문제가 된 것이고 그 서버에서 호스팅된 서비스들만이 영향을 받았을 것이다. 하지만 이것은 Amazon 웹서비스의 신뢰성에 중대한 영향을 미칠 것이다. 더 나아가서는 Amazon 웹서비스가 대표하는 Cloud Computing 비전에 대해 치명적인 불신을 가져올 수 있다. 하지만 웹 2.0의 위기라고 하는 것은 좀 오버인 듯 싶다.

사실 냉정하게 생각해 보면 그리 큰 일이 아닐 수도 있다. 왜냐면 Amazon에 데이터를 맡기지 않고 자신이 직접 서버를 사서 관리하더라도 똑같이, 아니 더 자주 발생할 수 있는 문제이기 때문에 이번 사고가 절대 일어날 수 없는 일이라 볼순 없다. (Amazon 역시 절대 fail이 나지 않을 것을 보장하진 않는다) 그러나 이 문제를 일반적인 서비스들의 일시중단과는 다르게 더 심각하게 생각해야 하는 이유는 인프라 서비스의 중단은 대규모 서비스 중단으로 이어질 수 있기 때문이다. 예전에는 ISP(Internet Service Provider)의 사고가 인터넷과 서비스에 주었던 임팩트를 이제는 Amazon 웹서비스와 같은 플랫폼이 대신하게 된 것이다.

앞으로 대부분의 서비스들이 Amazon 웹서비스와 같은 플랫폼에서 운영될 가능성이 크다. 물론 Amazon외에 Google, MS, Yahoo 등도 어떤 방식으로든 이 시장에 뛰어들 것이다. 이것은 마치 몇 개의 허브 노드에 다수의 노드들이 붙어 있는 "Scale-Free Network" 구조와도 유사한 형태를 가질 것이다. Scale-Free Network은 random attack이나 failure에 대해선 강한 특성을 가지고 있지만 targeted attack에 대해선 네트워크 자체가 무너지는 현상을 보인다. 즉, 허브에 해당하는 몇 개의 플랫폼이 DoS(Denial-of-Service) 공격이라도 당한다면 거의 인터넷 전체 서비스의 중단을 경험할 수도 있다.

웹 자체가 플랫폼화 되어가고 있고 점점 많은 서비스들이 플랫폼 서비스의 품에 안기고 있는 상황을(마치 분산 구조였던 웹이 중앙집중형 구조로 거꾸로 가고 있는 듯한 모습) 볼 때 인프라 역시 플랫폼화 되어 갈 것이라고 본다. 방향이 이렇게 간다는건 어쩔 수 없지만 "아직 심각한 사고가 터지기 전에 미리 준비된 설계"로 플랫폼을 준비하는 지혜가 필요하다고 본다. 지금까지 인터넷의 발전이 일단 벌여놓고 뒷수습하느라 구조가 엉망진창이 되는 식이었는데 플랫폼만은 그러지 말았으면 좋겠다.
 

크리에이티브 커먼즈 라이센스
Creative Commons License
이 저작물은 크리에이티브 커먼즈 코리아 저작자표시 2.0 대한민국 라이센스에 따라 이용하실 수 있습니다.

Posted by 한재선


Trackback URL : http://www.web2hub.com/blog/trackback/88

Trackbacks List

  1. 옥션 해킹으로 되돌아본 오픈API와 보안

    Tracked from likejazz.COM 2008/04/21 16:43 Delete

    옥션 해킹 사건으로 온나라가 연일 시끄럽다. 1,100만 가입자 정보 유출이라는 전무후무한 사건이기에 그 파장도 엄청난듯하다. 전자상거래 서비스의 특성상 주민등록번호뿐만 아니라 계좌번호까지 포함되어 있어 그 심각성이 더 하다. 우려했던 일이 현실로 일어나다 보니 옥션 후폭풍이 엄청나다. 벌써부터 중국발 아이디 찾기 호출이 폭증했다는 얘기도 있다. 실명과 주민등록번호만 알면 알려주는 ID 조회 서비스가 문제다. 각 사이트 담당자들은 이 기회에 ID 조..

Leave a comment
« Previous : 1 : ... 16 : 17 : 18 : 19 : 20 : 21 : 22 : 23 : 24 : ... 107 : Next »