사일로 조직관계 안에서, 비전문 도메인 문제를 데이터 기반으로 해결
배경
입사 초기 App 및 GUI 개발을 담당하던 중, 현장에서 제품이 주기적으로 멈추는 문제가 지속 발생하였고, 회사는 이에 대한 현장 지원 업무를 추가로 할당하였습니다.
해당 제품은 제어 시스템과 임베디드 환경 기반의 제품이었고, 당시 저는 임베디드 및 제어 도메인 경험이 없는 상태였습니다.
또한, 임베디드 및 제어 시스템 파트는 독립적으로 운영되는 사일로 구조로, 정보 공유와 협업이 원활하지 않은 상황이었습니다.
문제 정의
- 제품이 하루 평균 3회 이상 정지
- 복구는 수동 초기화로만 가능
- 근본 원인은 명확히 규명되지 않은 상태
문제 접근 및 실행 전략
- 데이터 기반 접근
- 현장에서 직접 상태 데이터를 수집
- 이슈 발생 시점의 센서값, 제어 상태, 위치 정보 로깅
- 공통된 패턴 추출
- 도메인 전문가와 협업
- 시스템 제어 개발 파트와 지속 커뮤니케이션
- 제어 상태 플로우 및 안전 스위치 동작 원리 학습
- 이상징후 탐지 및 분석
- 위치/센서 값이 임계값을 초과하며 정지 전환되는 조건 확인
- 임계값 조정 시도 → 근본 해결되지 않음
- 센서 데이터를 플로팅하며 자기 센서 초기값이 주기적으로 잘못 전달되는 증상 발견
- 조직 저항 속 문제 정의 유지
- 임베디드 팀: “센서 자체 문제, 개선 불가” 회신 반복
- 해당 현상을 문서화, 수치화, 정량 분석 기반으로 리포트
⚙️ 실행 결과 및 시스템 개선
- 증상 감지를 위한 이벤트 정의 및 알람 시스템 구축
- 현장 센서 데이터를 수집하는 데이터 전송 파이프라인 구성
- 원격 초기화 가능한 서브 시스템 개발
- 반복되는 현장 초기화 작업을 자동화 및 원격화하여 서비스 안정성 개선
최종 결과
- 장애 발생 횟수 감소, 현장 대응 부담 완화
- 원격 복구 기능 도입으로 서비스 운영 효율성 향상
- 퇴사 수개월 후 펌웨어 수정으로 문제 완전 해결되었고,
당시 분석한 원인이 맞았다는 내부 직원 확인을 받음
핵심 역량
- 비전문 도메인에서도 주도적 문제 정의 및 실행
- 조직 구조의 장벽 속에서 협업 유도 및 실행력 발휘
- 데이터 기반 분석 → 운영 자동화 설계까지 완결한 경험
홈으로 가기