
인공지능(AI)이 의료 현장에 빠르게 도입되고 있지만 복잡한 판단이 요구되는 진행성 간암 치료 결정에 있어서는 여전히 임상의사 경험적 판단이 환자 생존에 더 유리하다는 연구결과가 나왔다.
양경모 가톨릭대학교 여의도성모병원 소화기내과 교수(제1저자)와 한지원 서울성모병원 소화기내과 교수(교신저자) 연구팀은 최근 대규모 언어모델(LLM)인 챗GPT(ChatGPT), 제미나이(Gemini), 클로드(Claude) 등을 활용해 실제 간암 치료 의사결정에서의 역할을 평가한 연구결과를 21일 발표했다.
연구팀은 국가 간암등록사업에 등재된 초치료 간세포암 환자 1만3614명의 방대한 임상 데이터를 분석했다. 환자 종양 특성, 간 기능, 전신 상태 등 구조화된 정보를 AI에 입력해 치료 권고안을 도출하고, 이를 실제 의료 현장에서 시행된 치료법 및 환자 생존 결과와 비교 분석했다.
분석 결과, AI가 권고한 치료법과 실제 의사가 시행한 치료법의 일치율은 27~33% 수준에 머물렀다. 특히 간암의 진행 단계(병기)에 따라 AI 권고의 유용성이 크게 엇갈리는 양상을 보였다.
초기 간암(BCLC A단계)의 경우, AI 권고와 일치하는 치료를 받은 환자군 생존율이 유의하게 높았다(HR=0.626, P<0.001). 이는 비교적 치료 가이드라인이 명확한 초기 단계에서는 AI의 판단이 효과적일 수 있음을 시사한다.
반면, 진행성 간암(BCLC C단계)에서는 정반대 결과가 나타났다. AI 권고와 일치하는 치료를 받은 환자군이 의사의 판단대로 다른 치료를 받은 환자군보다 오히려 생존율이 낮게 나타난 것이다(HR=2.271, P<0.001).
연구팀은 이 같은 결과 배경으로 AI와 의사가 중점적으로 고려하는 판단 기준 차이를 지목했다.
AI는 주로 종양 크기나 전이 여부 등 ‘종양 중심’ 변수를 중시하는 경향이 있는 반면, 실제 임상 의사들은 환자 간(肝) 기능 및 전신 상태, 합병증 위험 등 정형화하기 어려운 ‘환자 중심’ 요소를 종합적으로 고려하기 때문이다.
즉, 임상 상황이 복잡해질수록 가이드라인 기반 AI 권고와 실제 환자에게 최적화된 치료 간 괴리가 커질 수 있다는 의미다.
양경모 교수는 “이번 연구는 생존 자료를 통해 간암 치료 의사결정에서 인공지능 범위와 한계를 동시에 확인했다는 점에 의의가 있다”며 “AI는 가이드라인 기반 판단을 보조할 수는 있으나, 치료 결정을 주도하는 주체가 되기에는 아직 한계가 있다”고 설명했다.
한지원 교수도 “진료 현장에서는 데이터로 정형화하기 어려운 간(肝) 기능 변화, 치료 내성, 전신 상태 등이 치료 성적을 좌우한다”며 “이번 결과는 대규모 실제 데이터를 통해 임상의사의 종합적 판단 중요성을 재확인한 것”이라고 강조했다.
한편, 이번 연구는 영상 정보와 임상 정보를 결합한 다중모달 AI 개발 및 전향적 임상연구 필요성을 제시했으며의학 분야 권위지인 ‘플로스 메디슨(PLOS Medicine, IF=9.9)’ 2026년 1월호에 게재됐다.
(AI) .
(1) () (LLM) GPT(ChatGPT), (Gemini), (Claude) 21 .
13614 . , , AI , .
, AI 27~33% . () AI .
(BCLC A) , AI (HR=0.626, P<0.001). AI .
, (BCLC C) . AI (HR=2.271, P<0.001).
AI .
AI , () , .
, AI .
AI , .
() , , .
, AI (PLOS Medicine, IF=9.9) 2026 1 .