들어가며: 생성형 AI의 등장과 QA가 받은 질문
생성형 AI가 등장했을 때 많은 직무가 비슷한 질문을 받 았습니다. ‘이 직무는 AI로 대체될 수 있는가? 반복적인 업무는 자동화되지 않는가? 결국 사람의 역할은 줄어들지 않는가?’라는 질문들이었습니다.
QA 역시 예외는 아니었습니다. AI가 테스트 케이스를 대신 작성할 수 있다면 QA의 역할은 무엇이 될까요? 버그 분석을 AI가 수행하고 사용자 리뷰 분석까지 자동화한다면 QA는 어떤 일을 하게 될까요?
생성형 AI 기술이 빠르게 발전하면서 자연스럽게 이와 같은 질문들이 등장했고, LINE Album QA에서도 같은 고민을 했습니다. AI를 도입하면 QA의 역할이 줄어들까요? 아니면 전혀 다른 형태로 변화할까요? 실제 운영 경험을 통해 저희가 얻은 결론은 예상과는 조금 달랐습니다.
AI는 QA를 대체하지 않았습니다. 대신 QA의 사고 범위와 영향력을 확장했습니다.
저희는 AI를 단순한 생산성 도구로 사용하는 방식에는 한계가 있다고 판단했습니다. 문서를 요약하거나 테스트 케이스 초안을 생성하는 수준의 활용만으로는 QA 업무 방식 자체를 바꾸기 어렵기 때문입니다. 그래서 LINE Album QA에서는 AI를 개별 도구로 사용하는 대신, QA 운영 체계 자체를 AI 중심으로 다시 설계하는 접근을 선택했습니다.
여기에는 한 가지 중요한 전제가 있습니다. QA의 생산성은 단순히 테스트를 얼마나 빠르게 수행하느냐로 결정되지 않는다는 것입니다. 실제로 QA의 업무는 다양한 정보 속에서 맥락을 이해하고 리스크를 판단하는 과정에 더 가깝습니다. 기획 문서, 개발 변경 사항, 사용자 피드백, 테스트 결과 등 여러 출처의 정보를 빠르게 이해하고 연결하는 능력이 품질 활동의 핵심입니다.
이 관점에서 보면 QA의 문제는 테스트 속도가 아니라 정보의 양과 복잡도이며, 바로 이 지점에서 AI는 단순한 생산성 도구가 아니라, 정보를 구조화하고 사고를 확장하는 자동화 도구로 작동하기 시작했습니다.
이 글에서는 LINE Album QA에서 AI를 도입하며 경험한 변화와, AI를 중심으로 품질 운영 체계를 어떻게 재설계했는지 그 사례를 공유하고자 합니다.
QA의 역할은 원래부터 ‘테스트’가 아니었다
앞서 이야기했듯이 QA의 핵심 문제는 테스트 속도가 아니라 정보의 양과 복잡도입니다. 이 점을 이해하려면 먼저 QA의 역할을 다시 살펴볼 필요가 있습니다.
LY Corporation에서 QA 엔지니어는 단순히 기능을 검증하는 역할에 머물지 않습니다. 제품 개발 과정 전반에 걸쳐 품질 관점의 시각을 제공하는 역할을 수행합니다. 기획 단계에서는 기능 설계 과정에서 발생할 수 있는 리스크를 미리 식별하고, 개발 단계에서는 코드 변경이 제품 전체에 어떤 영향을 줄 수 있는지 분석합니다. 이후 테스트 전략을 설계하고 실제 검증을 수행하며, 릴리스 이후에는 사용자 피드백과 운영 데이터를 다시 제품 개선 과정으로 연결합니다.
이러한 관점에서 보면 QA의 역할은 단순한 테스트 수행자가 아니라 제품 개발 전 과정을 연결하는 품질 설계자(quality architect)에 가깝습니다. QA는 ‘Plan–Dev–Test–Release’로 이어지는 제품 생명 주기 전반에서 품질 관점을 유지하며 각 단계의 정보를 연결하는 역할을 합니다.
아래 그림은 각 단계의 QA의 활동과 그와 연관된 도구를 표시한 것입니다.
문제는 이러한 역할을 수행하기 위해 다뤄야 하는 정보의 규모가 계속 증가하고 있다는 점이었습니다. 실제 QA 업무에서는 다양한 출처에서 동시에 수많은 정보가 탄생해 인입됩니다. 기획 문서와 기술 설계 문서는 지속적으로 업데이트되고, Slack에는 기능 논의와 그에 따른 의사 결정이 수많은 스레드로 남습니다. Jira에는 새로운 이슈와 작업 티켓이 계속 생성되며, 서비스 릴리스 이후에는 다양한 언어로 작성된 사용자 리뷰와 피드백이 쌓이기 시작합니다. 여기에 자동화 테스트 스크립트와 실행 로그까지 더해지면서 QA가 다뤄야 하는 데이터의 양은 매우 빠르게 증가합니다.
결국 QA의 생산성을 결정하는 요소는 ‘테스트를 얼마나 빠르게 수행하는가’가 아니라, 이처럼 ‘분산된 정보를 얼마나 빠르게 구조화하고 맥락을 이해해 리스크를 판단할 수 있는가’입니다. QA는 테스트를 실행하는 사람이기 이전에 다양한 정보 속에서 품질과 관련된 신호를 찾아내는 역할을 수행하고 있었기 때문입니다. 그리고 바로 이 지점에서 AI가 중요한 역할을 하기 시작했습니다.
AI를 ‘대화 도구’에서 ‘품질 워크플로’로
AI를 처음 도입했을 때는 활용 방식이 비교적 단순했습니다. QA 엔지니어는 생성형 AI를 활용해 기획 문서를 요약하거나 테스트 케이스의 초안을 생성하고, 복잡한 버그 리포트를 정리하거나 재현 절차를 문서화하는 데 도움을 받았습니다. 이렇게 활용하는 것만으로도 생산성이 일정 수준 향상했습니다.
하지만 실제 업무에 적용해 보면서 곧 한 가지 중요한 차이를 깨달았습니다. AI를 보조 도구로 사용하는 것과 운영 체계에 통합하는 것은 완전히 다른 문제라는 점이었습니다.
초기 방식에서는 QA 엔지니어가 필요할 때마다 AI에게 질문을 던지고 결과를 받아 활용하는 구조였습니다. 이 방식은 개인의 생산성을 높이는 데는 효과적이었지만 QA 운영 전체의 효율을 개선하기에는 한계가 있었습니다. 무엇보다 QA 업무의 상당 부분은 사람이 직접 요청하기 전에 이미 시스템 안에서 다양한 형태의 이벤트로 발생하고 있었기 때문입니다.
예를 들어 새로운 Jira 티켓이나 PR(pull request)이 생성되고, 자동화 테스트가 실행되거나 사용자 리뷰가 쌓이는 순간마다 품질과 관련된 중요한 신호가 발생합니다. 하지만 기존 방식에서는 이러한 정보를 QA가 직접 모으고 정리한 뒤 AI에게 전달해야 했습니다. AI를 사용하기 위해 또 다른 수작업이 필요한 구조인 셈이었습니다.
이에 저희는 접근 방식을 바꾸기로 했습니다. ‘AI를 사람이 필요할 때 호출하는 도구로 사용하는 것뿐만 아니라 품질 이벤트에 반응하는 시스템으로 만들 수는 없을까?’ 고민했습니다. 그 고민의 결과 LINE Album QA에서는 자동화 워크플로 시스템을 구축했습니다. 현재 30개 이상의 워크플로가 운영되고 있으며, 다양한 품질 관련 이벤트가 발생하면 AI가 자동으로 분석하는 구조로 작동합니다. 아래 그림은 프로젝트 관리 단계에서 AI를 적용한 부분과 워크플로가 적용된 부분을 표기한 부분입니다.
이 시스템에서 AI는 더 이상 사람이 입력창에 질문할 때만 작동하는 대화 도구가 아닙니다. Jira 이슈 생성, 코드 변경, 테스트 실행, 사용자 피드백 수집과 같은 이벤트에 반응해 데이터를 분석하고 결과를 구조화하는 품질 운영 체계의 일부로 작동합니다.
이러한 변화는 단순히 업무 속도를 높이는 자동화를 넘어, QA가 품질 데이터를 다루는 방식 자체를 바꾸는 계기가 되었습니다.
두 가지 자동화 구조: 스케줄링과 웹훅
저희는 AI 중심의 품질 운영 체계를 구축하면서 모든 자동화를 두 가지 방식으로 나눠 설계했습니다. 하나는 정해진 시간에 실행되는 스케줄 기반 분석, 다른 하나는 이벤트가 발생하는 순간 실행되는 웹훅 기반 분석입니다. 이 두 구조는 서로 다른 목적으로 각각 QA 업무를 보완하고 지원합니다.
스케줄링 기반 자동 실행
스케줄링 기반 자동화는 특정 시간에 반복 실행하는 분석 흐름입니다. 정기적으로 발생하는 품질 데이터를 수집하고 요약해 QA 팀이 빠르게 상황을 파악할 수 있도록 돕습니다.
예를 들어 매일 App Store에서 수집하는 리뷰를 자동으로 분석해 주요 이슈를 분류하거나, API 자동화 테스트 결과를 요약해 Slack 채널로 공유하는 워크플로를 운영하고 있습니다. 또한 UI 자동화 테스트 실행 결과를 기반으로 요약 리포트를 생성하거나, 한 주 동안의 품질 활동과 주요 이슈를 정리한 주간 QA 리포트도 자동으로 작성됩니다.
이러한 자동화를 통해 QA 엔지니어의 역할도 자연스럽게 변화했습니다. 과거에는 여러 시스템에서 데이터를 직접 수집하고 정리해야 했지만, 지금은 이미 구조화된 결과를 기반으로 리스크를 판단하고 필요한 부분을 검증하는 데 집중하고 있습니다.
다음은 업무 시스템 중 하나인 Jira에서 자동으로 QA 관련 데이터를 수집해 Slack으로 알려주는 워크플로 예시입니다.
웹훅 기반 이벤트 트리거
스케줄링 자동화가 정기적인 분석에 초점을 맞춘다면, 웹훅 기반 자동화는 품질 관련 이벤트가 발생하는 순간 즉시 작동하는 구조입니다.
예를 들어 새로운 Jira 티켓의 PR이 생성 후 병합되면 코드 변경 내용을 기반으로 잠재적인 영향 범위를 요약하고, Slack에서 기능을 논의하던 스레드가 종료되면 주요 의사 결정을 정리한 회의록을 생성합니다. 또한 자동화 테스트 결과가 업로드되면 실행 통계를 분석하고 시각화하는 워크플로도 함께 작동합니다.
이러한 이벤트 기반 자동화를 통해 QA 팀은 품질과 관련된 중요한 신호를 훨씬 빠르게 인지할 수 있게 되었습니다.
현재 QA 업무 흐름
이 두 가지 자동화 구조를 결합하면서 QA 업무의 흐름도 이전과는 다른 형태로 정리되었습니다. AI는 정보를 수집하고 분석해 정리하는 역할을 담당하고, QA 엔지니어는 그 결과를 기반으로 리스크를 판단하고 최종 의사 결정을 수행합니다. 이는 단순히 자동화 도구를 추가하는 수준의 변화가 아닙니다. QA가 품질 데이터를 다루는 방식과 QA 업무가 시작되는 지점 자체를 바꾸는 변화였습니다.
다음은 워크플로로 자동화한 LINE Album QA의 정형화된 하루 업무 흐름을 보여주는 사례입니다. 모든 이벤트는 Slack으로 통지됩니다.
| 시간 | 작업 |
|---|---|
| ~ 00:00 |
UI 자동화 테스트 MagicPod으로 구현한 Android, iOS의 UI 자동화 테스트를 실행합니다. 테스트 결과는 자동으로 Jira 티켓으로도 업데이트하며 Slack으로 공유합니다. 만약 테스트가 실패하면 테스트 실패 분석을 실행해 플레이키 테스트(flaky test)가 발생한 것인지 그 원인을 분석합니다.
|
| 08:00 |
API 자동화 테스트 Pytest로 구현된 API 자동화 테스트를 실행합니다. 앞서와 마찬가지로 그 결과를 Jira 티켓으로 업데이트하며 Slack으로 공유합니다.
|
| 09:00 |
데일리 스크럼 시작 오늘 진행할 주요 테스트 현황을 미리 공유할 수 있도록 스레드를 생성합니다. 진척 상황을 자세히 확인할 수 있도록 스크럼 보드 링크와 이슈 대시보드를 공유해 줍니다.
|
| 09:30 |
미해결 이슈 확인 이어지는 스레드를 통해서 현재 진행하는 테스트 버전에서 미해결된 이슈 현황을 보고 받습니다. 또한 QA 측 확인이 필요한 이슈도 자동으로 파악돼 Slack으로 공유됩니다.
|
| 09:30 |
멘션된 이슈 확인 Jira 티켓에서 멘션되면 메일로 알림이 오기는 하지만 이를 분류하기가 쉽지 않고 오늘 확인해야 할 멘션만 파악하는 것도 쉽지 않습니다. 따라서 스크럼 시작 시간에 미리 파악할 수 있도록 Slack에도 자동으로 멘션을 걸어줍니다. 이를 통해 메일이나 Jira 티켓으로 이동하지 않더라도 자동으로 정리된 내용을 미리 확인할 수 있습니다.
|
| 09:30 |
앱 리뷰 분석 Android의 Google Play Store와 iOS App Store의 정보를 기반으로 매일 자동으로 리뷰 내용을 분석합니다. 리뷰 내용이 긍정인지 부정인지를 판단하고 리뷰 내용을 일본어와 한국어로 번역해 요약합니다. 이렇게 수집된 내용은 다시 한 달 단위로 묶어서 분석하고 프로젝트 팀에 공유합니다.
|
| 10:00 ~ 17:00 |
집중 업무 시간 QA 엔지니어는 AI를 이용해 수집한 품질 정보를 토대로 품질 계획을 설계하고 실행합니다. 워크플로 실행 결과를 모니터링하며 워크플로 개선 작업을 진행합니다. 테스트 엔지니어는 AI 도구들을 활용해 수동 테스트와 자동화 테스트를 진행합니다. 이 시간에는 요청 이벤트에 따라 주요 대화 스레드를 위키 문서로 요약하거나 기획/개발 문서나 티켓을 분석하는 작업 등이 동시에 진행됩니다(기획/개발 문서를 분석해서 테스트 케이스까지 생성하는 워크플로에 대해서는 다음 글에 이어서 설명합니다).
|
| 17:00 |
데일리 스크럼 종료 스크럼을 종료하기 위한 스레드를 생성합니다. 오늘 진행하기로 한 작업과 이슈 사항을 공유합니다. ![]() |
