테스팅에 관한 모든것

AI 기반 시스템 테스팅 42119-2 표준 본문

STA 서비스

AI 기반 시스템 테스팅 42119-2 표준

STA공식블로그 2026. 6. 4. 11:25

 

블로그 방문자 여러분, 안녕하세요!

최근 인공지능 기술이 금융, 제조, 의료 등 산업 전반에 깊숙이 자리 잡으면서, 시스템의 신뢰성과 기계적인 안전성을 어떻게 확보할 것인가에 대한 실무진들의 고민이 그 어느 때보다 깊어지고 있습니다. 과거 전통적인 소프트웨어 품질 검증 방식만으로는 방대한 데이터에 의해 스스로 학습하고 끊임없이 진화하는 인공지능의 불확실성을 완벽하게 통제하기 어렵기 때문입니다.

 

 

 

 

 

 

이러한 글로벌 IT 업계의 갈증을 해소하기 위해 최근 매우 의미 있는 가이드라인이 마련되었습니다. 바로 인공지능 품질 보증의 새로운 지평을 열어줄 42119-2 (Testing of AI systems) 국제표준입니다. 지난해 11월 ISO/IEC JTC1에서 공식 제정된 이 표준은 인공지능 테스트 절차와 방법론을 구체적으로 정의하고 있습니다. 특히, 소프트웨어 테스팅 전문기업 STA테스팅컨설팅(이하 STA)이 이번 인공지능(AI) 시스템의 신뢰성과 안전성을 검증하는 국제표준 제정에 핵심 역할을 수행하며 글로벌 AI 신뢰성 평가의 세계적인 기준을 세우는 데 크게 기여했습니다.

 

이번 포스팅에서는 해당 규격이 기존의 검증 프레임워크와 어떻게 다른지, 그리고 실무 현장에서 우리가 설계 단계부터 운영까지 챙겨야 할 핵심 요소들은 무엇인지 3가지 소주제로 나누어 깊이 있게 살펴보겠습니다.

 

 

1. 인공지능 테스팅의 새로운 패러다임 전환

출처 입력

기존의 소프트웨어 검증은 주로 개발자가 직접 작성한 정적인 코드 내의 논리적 결함을 찾아내는 데 집중했습니다. 품질 관리자들에게 친숙한 ISO/IEC 29119 규격 시리즈가 대표적인 기준점 역할을 해왔죠. 하지만 머신러닝이나 딥러닝을 근간으로 하는 시스템은 동작의 원리 자체가 완전히 다릅니다. 사람이 짜놓은 고정된 규칙이 아니라, 방대한 데이터를 바탕으로 스스로 숨겨진 패턴을 추론하고 새로운 결과값을 도출하기 때문입니다.

 

새롭게 제정된 42119-2 문건은 바로 이 근본적인 차이점에 주목합니다. 기존 29119 프레임워크가 가진 훌륭한 관리 프로세스와 테스트 문서화 체계는 그대로 계승하면서도 , 인공지능 생태계 특유의 '학습 데이터'와 '추론 모델'이라는 새로운 평가 대상을 명확히 추가했습니다.

 

단순히 최종 결과물이 맞는지 틀린지만 확인하는 블랙박스식 접근을 넘어, 초기 기획부터 데이터 수집, 학습 과정, 상용 배포, 그리고 운영 중 모니터링에 이르는 'AI 전체 수명 주기(Life Cycle)' 내내 끊임없는 테스트가 이루어져야 함을 공식화한 것입니다. 이는 향후 산업용 AI(AX) 기술을 상용화하려는 기업들이 반드시 거쳐야 할 필수적인 관문이 될 것입니다.

 

 

 

 

 

 

 

2. 데이터 무결성부터 모델 방어력까지: 핵심 평가 영역

출처 입력

이 규격이 실무 테스트 엔지니어들에게 주는 가장 실질적인 가치는 구체적인 테스트 유형(Test Type) 수행 단계(Test Level)를 명확하게 세분화하여 제시했다는 점입니다. 크게 데이터와 모델이라는 두 가지 핵심 축으로 나눌 수 있습니다.

 

  • 데이터 품질 테스팅 (Data Quality Testing): 인공지능의 궁극적인 성능은 결국 얼마나 좋은 양질의 재료를 학습했느냐에 달려 있습니다. 본 가이드라인은 데이터의 수집 출처가 안전하고 투명한지(데이터 출처 검증) , 실제 운영될 환경의 특성을 치우침 없이 잘 반영하고 있는지(데이터 대표성 검증)를 깐깐하게 따집니다. 특히 인종, 성별, 취약 계층 등에 대해 원치 않는 편향성(Unwanted Bias)이 학습되지 않았는지 엄격하게 평가하도록 요구합니다. 라벨링 작업의 정확성과 특징(Feature) 값들의 효율성까지 꼼꼼히 검토하여, 편견을 가진 AI가 탄생하는 것을 사전에 차단합니다.

 

  • 모델 테스팅 (Model Testing): 데이터가 아무리 훌륭하더라도 이를 연산하는 모델의 구조가 취약하다면 치명적인 보안 사고나 오류로 이어질 수 있습니다. 여기서는 모델의 기본적인 성능 및 정확도 측정은 물론이고 , 의도적으로 악의적이고 변형된 입력값을 주입하여 시스템의 방어력과 견고성을 시험하는 적대적 테스팅(Adversarial Testing)을 매우 비중 있게 다룹니다. 최근 주목받는 'AI 레드팀' 활동의 기술적 근간이 되는 부분입니다. 또한, 시간이 흐르고 운영 환경의 트렌드가 변하면서 모델의 성능이 서서히 떨어지는 현상(Concept Drift)을 지속적으로 추적하는 드리프트 테스팅도 핵심 검증 요소로 포함되어 있습니다.

 

 

 

 

 

3. 위험 기반 테스팅(RBT)과 글로벌 품질 기준의 융합

출처 입력

성공적인 인공지능 도입 프로젝트를 이끌기 위해서는 단순히 정해진 테스트 케이스를 기계적으로 많이 실행하는 것을 넘어, 비즈니스에 치명적인 잠재적 위험을 식별하고 우선순위에 따라 자원을 똑똑하게 배분하는 전략이 필요합니다. 42119-2 표준의 가장 깊은 곳에는 이러한 위험 기반 테스팅(Risk-Based Testing) 철학이 강력하게 깔려 있습니다.

 

특히 주목해야 할 점은 이 규격이 인공지능 제품 품질 모델을 다루는 ISO/IEC 25059 표준과 톱니바퀴처럼 긴밀하게 연결되어 작동한다는 것입니다. 25059에서 개념적으로 요구하는 견고성(Robustness), 기능적 적응성, 투명성, 그리고 AI의 판단 이유를 사람이 이해할 수 있게 해주는 설명 가능성(Explainability)과 같은 품질 특성들을 현장에서 어떻게 '테스트'라는 행위로 증명할 수 있는지 구체적인 방법론을 제공합니다.

 

예를 들어, 내부 로직을 알기 힘든 딥러닝 신경망 모델을 테스트할 때 단순 커버리지가 아닌 뉴런 커버리지(Neuron Coverage), 임계값 커버리지, 부호 변경 커버리지 등 AI 구조에 특화된 커버리지 지표를 활용하여 테스트의 완료 기준을 세우도록 안내합니다.

 

결론적으로 42119-2 국제표준의 제정은 그동안 현장에서 다소 막연하고 추상적으로 여겨졌던 인공지능 신뢰성 확보 방안을 아주 체계적이고 실무적인 언어로 정의해 냈다는 데 엄청난 의의가 있습니다. 향후 소프트웨어 테스팅 전문 조직이나 AI 개발팀이 기존의 품질 프로세스를 한 차원 고도화하려 할 때 훌륭한 나침반 역할을 하게 될 것입니다.

 

앞으로 다가올 진정한 산업 융합의 시대에는, 이 표준을 바탕으로 얼마나 탄탄한 거버넌스와 검증 체계를 선제적으로 갖추었는가가 IT 기업의 가장 강력한 핵심 경쟁력을 좌우하게 될 것입니다.