안돈 코드 Andon Cord

예상치 못한 상황이 발생했을 때 문제 해결을 위해서 인력이 동원되어야 합니다.

이 포스트에서 소개하려는 도요타의 안돈코드가 무엇인지 알아보고, 이를 IT 개발 환경에서 어떻게 활용할 수 있는지 알아봅시다.

도요타의 안돈 코드

도요타의 생산공장에는 모든 근로자와 관리자가 문제 발생 시 잡아당길 수 있는 코드가 있습니다.

작업에 문제가 발생하거나 부품에 결함이 있을 때 혹은 작업 시간이 예정 시간보다 길어질 때 바로 이 코드를 잡아당깁니다.

안돈 코드가 당겨지면 팀장은 바로 문제 해결에 착수하며, 생산 라인이 중단되고 대응책이 마련될 때까지 전체 조직이 동원되기도 합니다.

하루에 1000번의 안돈코드가 발생하면 작업이 1000번 멈추는 것이 아니고 팀장이 짧은 시간 내에 판단(대략 50초) 후 상황에 따라 다시 가동하거나 전체 라인을 중지시킵니다.

배포 파이프라인을 위한 안돈 코드

위에서 언급한 안돈코드의 사용처는 도요타의 자동차 생산라인이지만, 해당 컨셉을 IT 제품의 배포 파이프라인을 위해서 사용할 수 있습니다.

항상 성공적인 배포 파이프라인을 유지하기 위해서 가상의 안돈코드를 추가하여, 릴리즈 시 배포 파이프라인이 깨졌을 때 누군가 문제를 해결하거나 롤백을 하고, 모든 팀원은 원래 상태로 되돌아가기 위해 커밋을 롤백할 수 있는 권한을 부여받아야 합니다.

문제가 발생했을 시, 해당 코드의 당사자만 오류를 확인하는게 아닌, 다른 누군가의 코드도 분석하며, 나중에 그들도 내가 놓쳤던 실수를 찾게 도와 줄 수 있습니다.
개인의 목표보다 팀의 목표, 더 나아가 회사의 목표를 우선시해야 하기 때문에, 품질 및 신뢰성의 우선순위는 항상 최고로 보장됩니다.

안돈 코드가 없고 배포 파이프라인의 문제를 바로 수정하지 않는다면, 결과적으로 발생한 문제를 점점 복구하기가 힘들어질 수밖에 없습니다.
기존 테스트가 안정적으로 실행되지 않는다는 것은 새로운 테스트를 추가하거나 유지보수가 제대로 되지 않을 가능성이 높으며, 배포에 대한 신뢰가 떨어지고, 마침내 엄청나게 기술 부채를 마주하게 될 것입니다.

참고

데브옵스 핸드북
IDEAS FOR ACTION FROM THE CULTURE CODE