신경과에서 ChatGPT 적용하면 '전공의 1년차 수준'
텍스트 기반 문항 정답률 '45.1%'…고판우 경북의대 교수 "미래 역할 확대"
2024.08.08 05:26 댓글쓰기



사진제공 연합뉴스
ChatGPT 임상 활용을 위한 의료계 내부 논의가 활발한 가운데 신경과적 의학지식에서는 다소 기대에 못 미치는 점수가 나온 것으로 알려졌다.  


지난 2023년 신경학 전공의 수련평가 문항을 토대로 ChatGPT 의학지식과 임상 적용 가능성을 평가한 결과, 텍스트 기반 문항에서 약 45.1%의 정답률을 기록했기 때문이다.  


고판우 경북대 의대 신경과학교실 교수는 최근 대한신경과학회지에 ‘ChatGPT가 한국 신경과 의사들의 실제 임상에서 유용할까?’를 주제로 한 연구 논문을 게재했다. 


이번 연구 핵심은 ChatGPT가 의학 지식 평가에서 얼마나 정확한 답변을 제공할 수 있는지를 정답률 중심으로 분석하는데 주안점을 뒀다. 


주목되는 대목은 해당 점수는 신경학 시험에서 1년차 전공의 수준에 근접했다는 것이다. 또 기타 의학시험과 비교 시 ChatGPT 성능이 다소 낮았다는 점도 언급됐다. 


ChatGPT, 텍스트 기반 한계그림사진 포함되면 성능 저하


ChatGPT의 신경학적 의학지식과 임상 적용 가능성 평가에서는 그림이나 사진이 포함될 경우  분석 성능이 저하되는 것으로 나타났다. 


신경과의 경우 뇌(腦) 질환 진단 등에 이미징 기술이 상당수 상용되는 만큼 임상 적용에서는 한계로 작용할 수 있는 지점인 셈이다.  


ChatGPT는 텍스트로만 구성된 문항 61개에서 정답률은 45.1%였으나 그림이나 사진이 포함된 52개 문항에서는 이보다 성능이 떨어지는 모습을 보였다. 이는 ChatGPT가 텍스트 기반으로 설계된 인공지능(AI)이라는 한계 때문으로 분석됐다. 


또 고 교수는 ChatGPT가 실제 임상 사례를 바탕으로 한 진단에서 얼마나 정확한 답변을 도출할 수 있는지를 살폈다. 신경과학회지에 실린 최근 12건 증례 보고서를 기반으로 한 분석에서 ChatGPT는 5건에서 적절한 진단을 제시했고, 8건에서는 주요 검사를 정확히 제안했다. 


하지만 최종 진단 정확도는 12건 중 7건에 불과, 임상적 복잡성 처리에는 여전히 한계가 있음을 드러냈다고 지적했다. 


의료 인공지능(AI) 미래는 '정답률 개선' 관건


고 교수는 ChatGPT가 신경과 임상에서 일부 유용성을 보였지만, 의료 현장에서 활용에는 개선이 필요하다고 진단했다. 


특히 45.1% 정답률은 향후 AI 기술이 임상에서 실질적 사용을 위해 성능 개선이 필요함을 시사했다고 평가했다. 


다만 그는 AI 기술의 지속적인 발전 가능성을 언급하며 향후 의료 현장에서 AI 역할이 확대될 것으로 내다봤다.


고 교수는 “ChatGPT 역할이 실현되기 위해서는 더 높은 정답률과 정확도가 필수적”이라며 “AI 의료분야 적용 가능성을 탐구하는 연구가 지속적으로 필요하며 이를 통해 AI가 실제로 의료서비스 질을 향상시킬 수 있을지 심도 있는 논의가 필요하다”고 제언했다. 



댓글 0
답변 글쓰기
0 / 2000
메디라이프 + More
e-談