
보건의료를 포함 다양한 분야에서 인공지능(AI) 활용도가 높아지는 가운데 암(癌) 정보 정확도를 비교, 분석한 연구결과가 나와 주목된다.
장현 가톨릭관동대학교 국제성모병원 종양혈액내과 교수 연구팀(정진우 비뇨의학과 교수, 김용호 방사선종양학과 교수)은 최근 대표적인 AI 언어모델인 ‘ChatGPT’와 ‘클로바X’의 한국어 암 정보 응답 정확도를 비교·분석한 연구 결과를 발표했다고 30일 밝혔다.
최근에는 ChatGPT가 미국 의사면허 시험(USMLE)에 통과하는 등 과학, 법률, 의학 등 전문 분야에서 두각을 나타내고 있어 일상생활에서도 폭넓게 활용되는 상황이다.
연구는 국가암정보센터와 미국국립암연구소(NCI) 홈페이지에 게재된 암 관련 주요 질문을 ChatGPT와 클로바X에 각각 입력한 뒤, 도출된 답변을 전문의들이 평가하는 방식으로 이뤄졌다.
그 결과, 두 모델 모두 전체적으로 ‘유사한 수준’의 응답 품질을 보였으며 통계적으로 유의미한 차이는 없었다.
다만 일부 문항에서는 두 모델 모두 비의학적 정보나 검증되지 않은 내용을 포함한 환각(hallucination) 응답을 제공했다.
전체 26개 문항 중 유용성이 높은 GQS(Global Quality Scale) 점수 4~5점을 받은 우수 답변 비율은 ChatGPT가 80.8%(21개), 클로바X가 65.4%(17개)로 ChatGPT가 다소 높았다.
그러나 통계적으로 유의미한 차이는 없었으며, 이는 두 모델이 한국어 암 정보에 대해 전반적으로 비슷한 수준의 정확도를 보였다는 의미다.
연구팀은 “AI가 한국어로 된 의료정보를 어느 정도 수준까지 제공 가능한지 확인한 기초자료”라며 “정확도 향상과 환각 응답 방지를 위한 후속 연구가 필요하다”고 밝혔다.
AI를 활용한 임상보조진단 등이 임상 현장에서 활용도를 높여가고 있지만, 오진 및 법적인 책임 문제 등으로 전면적 활용까지는 시기상조라는 분위기도 존재하고 있다.
장현 교수는 “AI 언어모델이 암환자에게 신뢰할 수 있는 정보를 제공하는 유용한 도구가 될 수 있도록 향후 정확성과 신뢰성에 대한 연구를 지속하겠다”고 밝혔다.
한편, 이번 연구논문은 ‘한국어 암 관련 질문에 대한 대규모 언어모델의 응답 비교 분석(Comparative Analysis of Large Language Models for Answering Cancer-Related Questions in Korean)’이라는 제목으로 연세의학저널(Yonsei Medical Journal) 7월호에 게재됐다.
???
(AI) () , .
( , ) AI ChatGPT X 30 .
ChatGPT (USMLE) , , .
(NCI) ChatGPT X , .
, .
(hallucination) .
26 GQS(Global Quality Scale) 4~5 ChatGPT 80.8%(21), X 65.4%(17) ChatGPT .
, .
AI .
AI , .
AI .
, (Comparative Analysis of Large Language Models for Answering Cancer-Related Questions in Korean) (Yonsei Medical Journal) 7 .?