이전 글 AWS 프리티어 배포 후 장애 - CPU 사용률 100%, 크레딧 0개 이후 ssh 접속도 안되는 상황과 해결을 작성하며 (비교적 간단한) 기술적 문제를 되돌아 봤었다.
며칠 뒤 우연히 책 "구글 엔지니어는 이렇게 일한다"을 읽고 이전 글처럼 기술적 회고를 좀 더 잘 쓰는 방법을 알게 되었다.
그 방법은 '포스트모템'이다.
이하 내용은 책 "구글 엔지니어는 이렇게 일한다" 중 '2.4.4 비난 없는 포스트모템 문화' p86 ~ 87의 일부입니다.
포스트모템(postmortem)
실패한 근본 원인을 분석하여 문서로 남기는 것이 실수로부터 배우는 핵심이다. 이를 구글은(다른 많은 회사에서도) 포스트모템이라고 한다.
- 포스트모템 문서에는 쓸모없는 사죄, 변명, 지적으로 채워지지 않도록 각별히 주의해야 한다.
- 제대로 된 포스트모템에는 무엇을 배웠는지와 배운 것을 토대로 앞으로 무엇을 바꿀지가 담겨야 한다.
- 실패를 제대로 기록해두면 다른 이들도 무슨 일이 있었는지 알 수 있고 (당장 혹은 미래에) 똑같은 실수를 반복하는 일을 피할 수 있다.
훌륭한 포스트모템에는 다음 내용이 담겨야 한다.
- 사건의 개요
- 사건을 인지하고 해결에 이르기까지의 타임 라인
- 사건의 근본 원인
- 영향과 피해 평가
- 문제를 즉시 해결하기 위한 조치 항목(소유자 명시)
- 재발 방지를 위한 조치 항목
- 해당 경험에서 얻은 교훈
Reference
책 - 구글 엔지니어는 이렇게 일한다, 2장 팀워크 이끌어내기 중
'🧘🏻♂️ 생각, 개발 일반' 카테고리의 다른 글
[의사 결정] 사이드 프로젝트에서 GitHub Issues 대신에 Jira를 사용하게 된 이유와 후기 (2) | 2022.08.18 |
---|---|
Jira 1. 무료 플랜 소개와 프로젝트 생성과 초기 설정 팁 (2) | 2022.08.11 |
Issue(s)와 Issue Tracking System란 무엇인가? (0) | 2022.08.10 |
실용주의 프로그래머, 실용주의 철학 📓 (2) | 2022.03.05 |
유지보수하기 좋은 코드, 앞으로의 수련 🧘🏻♂️ (0) | 2021.11.17 |
댓글