대규모 언어 모델(LLM)을 비롯한 인공지능(AI) 시스템은 스팸 필터링, 혐오 발언 탐지, 문서 요약, 고객 피드백 분석 등 텍스트 분류 작업에 점점 더 많이 활용되고 있습니다. 하지만 이러한 시스템이 얼마나 ‘견고하게(robustly)’ 작업을 수행하는지 테스트하는 것은 늘 어려운 과제였습니다. 예를 들어, 온라인 리뷰를 긍정 또는 부정으로 분류하는 AI 모델이 단어 하나가 바뀌었다는 이유만으로 긍정 리뷰를 부정으로 판단해버릴 수 있습니다. 이는 모델의 훈련이 미흡했거나, 특정 언어를 오해하게 만드는 편향성이 내재되어 있을 때 발생할 수 있는 문제입니다.
이러한 문제를 해결하기 위해 MIT 연구진이 AI 모델의 텍스트 분류 견고성을 측정하는 새로운 방법을 개발했습니다. 이들이 개발한 지표는 AI 시스템이 기존의 분류를 바꾸기 전까지 텍스트의 의미가 얼마나 변경될 수 있는지를 측정하여, 모델의 취약점을 드러내고 공정성을 개선하는 데 도움을 줍니다.

의미 변화를 측정하는 ‘텍스트 견고성 지표(TRI)’
연구팀이 새롭게 제안한 지표는 ‘텍스트 견고성 지표(Text Robustness Index, TRI)’입니다. TRI는 입력된 텍스트가 AI 모델에 의해 분류가 변경되기 전까지 의미적으로 얼마나 먼 거리를 이동할 수 있는지를 측정합니다.
TRI의 작동 방식은 다음과 같습니다. 먼저 ‘텍스트-투-텍스트(text-to-text)’ 생성 기술을 사용해 원문의 핵심 의미는 유지하면서 표현만 약간 다른 여러 버전의 문장을 생성합니다. 예를 들어, “빠른 갈색 여우가 게으른 개를 뛰어넘는다”라는 문장을 “신속한 적갈색 여우가 나태한 개 위로 도약한다”와 같이 바꾸는 식입니다.
그다음, 이렇게 생성된 변형 문장들을 테스트 대상 AI 모델에 입력하여, 얼마나 많은 변형 문장까지 원래의 분류를 유지하는지 확인합니다. 이때 텍스트의 의미가 얼마나 변했는지를 정량화하기 위해 ‘바서슈타인 거리(Wasserstein distance)’라는 척도를 사용합니다. 최종적으로 TRI는 원래 분류를 유지한 모든 변형 문장들의 평균 의미 거리를 계산합니다. 이 평균 거리가 높을수록 모델이 더 견고하다고 평가됩니다.
연구의 주 저자인 칼페쉬 크리슈나(Kalpesh Krishna)는 “의미의 아주 작은 변화에도 모델의 예측이 바뀐다면 그 모델은 견고하지 않은 것”이라며, “반면 의미가 상당히 많이 바뀌었을 때만 예측을 변경하는 모델은 매우 견고하다고 할 수 있다”고 설명했습니다.

숨겨진 편향성 발견 및 모델 개선에 활용
TRI의 가장 큰 장점 중 하나는 모델 내에 숨겨진 편향성을 정확히 찾아내는 능력입니다. 예를 들어, 특정 법률 사건과 문서의 관련성을 분류하는 모델이 있다고 가정해 봅시다. 만약 문서에 ‘후안 가르시아(Juan Garcia)’와 같은 특정 인종을 연상시키는 이름을 추가했을 때 모델이 갑자기 ‘관련 없음’으로 분류한다면, 이는 히스패닉계 이름에 대한 편향성이 존재할 수 있음을 시사합니다. 개발자는 이 정보를 바탕으로 모델을 수정하여 편향성을 제거할 수 있습니다.
연구팀은 감성 분석, 토픽 분류, 유해 언어 탐지 등 다양한 LLM을 대상으로 TRI를 시연했습니다. 한 실험에서 긍정적인 영화 리뷰의 다양한 변형 문장을 생성했을 때, 견고한 모델은 표현이 상당히 달라져도 대부분 ‘긍정’으로 올바르게 분류했습니다. 반면, 덜 견고한 모델은 의미가 명백히 긍정적임에도 불구하고 작은 단어 변화만으로 ‘부정’으로 분류를 바꾸는 모습을 보였습니다.
더 나아가 개발자들은 TRI를 통해 발견된, 의미는 유사하지만 잘못 분류된 변형 문장들을 모델에 재학습(fine-tuning)시킴으로써 모델의 견고성을 직접적으로 향상시킬 수도 있습니다.

분류를 넘어 요약, 질의응답까지… 확장 가능성
이번 연구는 텍스트 분류에 초점을 맞췄지만, 연구팀은 TRI가 문서 요약이나 질의응답과 같은 다른 AI 작업의 견고성을 평가하는 데에도 확장 적용될 수 있다고 보고 있습니다. 또한 텍스트와 이미지를 함께 처리하는 멀티모달(multimodal) AI 모델에 적용하여, 이미지에 대한 텍스트 설명이 약간 변경되었을 때 모델이 얼마나 일관된 결과를 내는지 측정하는 방안도 모색 중입니다.
이번 연구에 참여하지 않은 UC 데이비스의 지이 리(Jiyi Li) 조교수는 “이 연구는 AI 모델의 신뢰성과 안정성에 관한 매우 중요한 주제를 다루고 있다”며, “텍스트 분류의 견고성을 체계적으로 측정하고 개선하는 능력은 콘텐츠 관리부터 의료 진단에 이르기까지 다양한 응용 분야에서 더 안전하고 공정한 AI 시스템을 구축하는 데 매우 중요하다”고 평가했습니다.