시스템 장애

5ch 컨텐츠 2023/08/08 05:28
1
옛날에 시스템 관리쪽 에이전시 쪽에서 일할 때의 이야기다.
꽤 큰 프로젝트의 PL(프로젝트 리더) 하던 시절의 이야기.


꽤 고생을 했지만 겨우겨우 고객사에 프로그램을 넘겼다.

그 후 장기 오퍼레이션 테스트(실제 시스템에 올리기 전, 해당 시스템을 활용할 멤버들로
실시하는 최종 실전 테스트) 도중 종종 한밤 중에 시스템에 문제가 생기는 등 장애현상이 발생했다.

딱 정해진 시간은 아니었지만, 대략 비슷한 시간대. 하지만 날짜는 비정기적이었다.
테스트는 미리 정해놓은 더미 데이터로 테스트를 한 것이라, 누가 오입력을 할 여지도 없었다.

서버실 역시 당연히 외부인의 출입이 있을 리 없는 구조.
시스템 장애가 발생한 날의 공통점도 전혀 없었다.

경험한 사람이라면 알겠지만
딱히 짐작 가는 원인도 없고 주기도 불확실하며
운영하는 사람들의 의한 휴먼 오류도 아닌 장애는 정말 처리가 어렵다.

소프트웨어를 아무리 뜯어보고 온갖 스트레스 부하를 주어도 유사한 장애가 재현되지는 않았다.
사양이 다른 기기에서 처음부터 다시 테스트 해보아도 나타나징 않았다.

직접 테스트를 해도 재현되지 않는다.
장애가 발생한 환경에서 다시 테스트 해보아도 재현되지 않는다.
극단적으로 전원 멀티탭부터 모두 동일한 환경으로 세팅해도 재현되지 않는다.

하지만 다시 본사로 돌아오면 고객사에서 얼마 뒤에 연락이 온다. 동일한 현상이.
솔직히 울음이 나올 것만 같았다.

도저히 어쩔 수 없는 상황이었기에, 정말 실제 현장을 확인해야겠다고 생각을 하고
고객사에서 숙박을 자처했다.

고객사 측의 영업팀이나 지원팀에서 도와준다고 했지만
굳이 도움이 필요하다고는 생각하지 않아 인원은 최소화했다.

당시의 PM(PL보다 더 높은)이었던 상사와 나 둘이서
서버실에 담요를 안고 가만히 현장을 지키는
꽤 황당한 상황이었습니다.

그 짓을 며칠 째 계속했을까. 새벽 4시쯤...

갑자기 "안녕하세요~" 하는 인사와 함께 청소 아주머니 여럿이 들어와 청소를 시작했다.

언제나의 광경이지만, 그 중 한 아주머니가 이것저것 버튼을 마구 누르며 닦기 시작한다.

우리를 보고 웃으며 말했다. "이런 버튼 틈새는 먼지가 잘 끼잖아요?"



그 순간, 원인을 알았다.
으 문제가 일어난 날짜와 그 아주머니가 당직인 날은 일치했다.

물론 업체 측에서도 아주머니에게도 제대로 설명은 해주었겠지만,
버튼의 모양이 다른 형태였던데다 다른 버튼들에 대해서는 특별히 설명이 없었기에
이쪽은 건드려도 상관없다고 생각한 모양.

추운 전산실에서 며칠을 보냈기 때문에 분노보다는 눈물이 나올 정도로 기뻤다.

그 후, 어떤 장애도 없었다.

고객사 측에서는 호평을 해왔다. 기술력보다도, 담요를 반입하고 며칠간 숙박을 하는 근성을 보인 점에 깊은 인상을 받은 모양. 뭐 딱히 나쁜 추억은 아니었다.

클라우드는 말할 것도 없고, 아직 회사에 갖춰진 휴대전화가 PHS였던 시절의 이야기니까.

서버를 걸레를 든 할머니가 청소하던 낭만의 시절 이야기.
진짜 인생 최대의 아수라장이었다.



56
>> 1
결과에 대해 잘 수긍한다고 할까, 긍정적으로 생각하는 것이 좋다. 나였으면
그 청소 아주머니한테 바로 버럭했을 것 같은데.

트랙백 주소 :: http://newkoman.mireene.com/tt/trackback/4745

댓글을 달아 주세요

  1. OO 2023/08/14 20:58  댓글주소  수정/삭제  댓글쓰기

    돌아오셨군요. 감사하고 반갑습니다.

  2. Nemo 2023/09/20 08:53  댓글주소  수정/삭제  댓글쓰기

    돌아오셔서 기쁩니다.