
챗GPT(ChatGPT) 등 생성형 인공지능(AI)의 비약적인 발전으로 의학 연구의 핵심 방법론인 ‘체계적 문헌고찰(Systematic Review)’에도 AI 도구 도입이 가속화되고 있다.
이는 문헌 검색과 스크리닝 시간을 획기적으로 단축시키는 등 연구 효율성을 높여주지만, 사실과 다른 내용을 생성하는 ‘환각(Hallucination)’ 현상 등 한계가 명확해 현장 연구자의 주의가 요구된다.
최근 문선현 의약기술정책연구부 주임연구원은 건강보험심사평가원이 발간한 ‘HIRA 이슈 제41호’를 통해 ‘AI 도구를 활용한 체계적 문헌고찰 동향’ 보고서를 공개했다.
보고서에 따르면 체계적 문헌고찰은 다수의 연구 결과를 종합해 신뢰도 높은 근거를 창출하는 방법이지만, 상당한 시간과 인적 자원이 소요된다는 단점이 있다.
이에 최근 자연어처리(NLP) 기술과 대형 언어 모델(LLM)을 기반으로 한 AI 도구들이 연구 과정의 반복 작업을 자동화하는 데 활용되고 있다.
주요 AI 도구 5선, 기능별 특화점 뚜렷
보고서는 현재 체계적 문헌고찰에서 주로 활용되는 5가지 핵심 AI 도구로 ▲RobotReviewer ▲Covidence ▲Elicit ▲SciSpace ▲ChatGPT를 꼽았다.
‘RobotReviewer’는 무작위대조시험(RCT)에 특화된 도구로 비뚤림 위험 평가와 근거 합성에 주로 사용된다. ‘Covidence’는 코크란(Cochrane)의 공식 도구로, AI를 통해 연구에 포함될 가능성이 높은 문헌의 우선순위를 제시함으로써 스크리닝 시간을 약 35% 단축시키는 것으로 나타났다.
생성형 AI인 ‘Elicit’은 문장형 질의를 통해 관련 문헌을 검색하고 근거를 제시하는 데 강점이 있으며, ‘SciSpace’는 광학문자인식(OCR) 기능을 바탕으로 PDF 파일 내의 표와 그림 데이터 추출에 유용하다고 분석했다.
높은 인지도를 가진 ‘ChatGPT’는 연구 질문 설정부터 보고서 초안 작성까지 전 과정에 활용 가능하나, 전문적인 도구가 아니므로 결과 재구성 과정이 필요하다는 진단이다.
검색·스크리닝 단계 활용도 ‘최고’… 비뚤림 위험 평가 ‘의문’
체계적 문헌고찰의 단계별 AI 활용 현황을 살펴보면, ‘문헌 검색’과 ‘스크리닝’ 단계에서 AI 도입이 가장 활발한 것으로 나타났다.
문헌 검색 단계에서 AI는 적합한 검색어(MeSH)를 제안하거나 출판되지 않은 회색 문헌까지 탐색 범위를 확장해 연구자의 부담을 줄여준다. 스크리닝 단계에서는 방대한 양의 논문 제목과 초록을 빠르게 검토해 효율성을 높인다.
데이터 추출 단계에서도 AI는 정형화된 데이터에 대해 연구자와 90% 이상의 일치도를 보였다. 반면, 정성적 데이터 추출이나 연구 설계에 대한 판단이 필요한 ‘비뚤림 위험 평가’ 단계에서는 AI의 정확도가 상대적으로 낮아 완전 자동화는 현실적으로 어려운 것으로 분석됐다.
효율성·일관성 확보 ‘장점’ vs 환각·재현성 부족 ‘한계’
보고서는 AI 도구 활용의 이점으로 ▲효율성 향상 ▲결과의 일관성 확보 ▲검색 범위 확장성을 제시했다. AI는 반복 작업을 자동화해 시간을 절약하고, 사전에 정의된 규칙에 따라 작업을 수행함으로써 연구자 간 판단 차이를 줄이는 데 기여한다.
그러나 한계점 또한 명확하다. LLM 기반 도구는 프롬프트에 따라 결과가 달라져 재현성이 낮을 수 있으며, 존재하지 않는 문헌을 생성하거나 저자명을 허구로 보고하는 ‘환각 현상’이 발생할 위험이 있다. 또 학습된 데이터의 편향성으로 인해 특정 연구를 과대·과소평가할 가능성도 제기된다.
문선현 주임연구원은 “AI 기술 발달로 연구 효율성이 높아졌지만, 체계적 문헌고찰의 전 과정을 완전히 대체하기에는 여전히 한계가 있다”며 “연구자의 판단과 검토가 반드시 수반되어야 한다”고 강조했다.
이어 “국제기관들이 발표한 ‘책임감 있는 AI 활용을 위한 지침(RAISE)’과 같이 연구자는 AI 사용 범위와 역할을 명확히 하고, 각 단계에서 AI가 어떻게 활용되었는지 투명하게 보고해야 한다”고 제언했다.
GPT(ChatGPT) (AI) ‘ (Systematic Review)’ AI .
, ‘(Hallucination)’ .
‘HIRA 41’ ‘AI ’ .
, .
(NLP) (LLM) AI .
AI 5,
5 AI RobotReviewer Covidence Elicit SciSpace ChatGPT .
‘RobotReviewer’ (RCT) . ‘Covidence’ (Cochrane) , AI 35% .
AI ‘Elicit’ , ‘SciSpace’ (OCR) PDF .
‘ChatGPT’ , .
‘' ’'
AI , ‘ ’ '' AI .
AI (MeSH) . .
AI 90% . , ‘ ’ AI .
‘' vs ’'
AI . AI , .
. LLM , ‘ ’ . .
“AI , ” “ ” .
“ ‘ AI (RAISE)’ AI , AI ” .