
과거 데이터 기반 정적 평가를 넘어 실제 임상환경을 그대로 구현한 가상 병원에서 의료 인공지능(AI)를 검증하는 세계 최초 모델이 제시됐다.
AI 처방이 환자 상태 악화나 병원 자원 소모로 이어지는 연쇄 효과까지 반영해 환자 위험 없이 안전성을 평가할 수 있는 전임상 검증체계가 마련된 것이다.
서울대병원 특화연구소 김성은 연구교수와 미국 하버드의대 공동 연구팀은 거대언어모델(LLM) 기반 의료 AI를 동적으로 평가하는 ‘임상 환경 시뮬레이터(Clinical Environment Simulator, CES)’를 14일 발표했다.
기존 의료 AI 평가는 과거의 정적인 데이터에 의존한 탓에 현장에서 의사의 결정이 미치는 연쇄적 파급 효과를 반영하지 못했다.
환자 상태는 시시각각 변하고 처방은 곧 병원의 제한된 자원 소모로 직결되지만 기존 방식으로는 이러한 시간적·시스템적 상호의존성을 평가할 수 없었기 때문이다.
이에 연구팀은 조종사가 비행 시뮬레이터에서 훈련받듯 의료 AI 역시 시간 흐름과 자원 제약 속에서 대처 능력을 평가받아야 한다고 분석했다.
이를 구현하기 위해 연구팀은 두 가지 핵심 엔진을 동기화했다.
먼저 ‘환자 엔진’은 전문의가 정의한 질병 궤적 템플릿과 실제 전자의무기록 환자 초기 데이터를 바탕으로 LLM이 증상과 치료 반응의 다양한 가상 경로를 생성해 환자의 상태 변화를 모사한다.
이와 맞물린 ‘병원 엔진’은 실제 병원의 시간 데이터를 바탕으로 현장 단계별 업무 흐름을 그대로 재현해 병상과 의료진, 장비 상태를 실시간으로 추적한다.
혈액 검사 지시가 내려지면 실제 소요 시간에 맞춰 단계별로 필요한 의료인력이 순차적으로 배정되고, 초응급 환자에게 자원을 우선 할당하는 우선순위 체계까지 구현됐다.
“환자를 위험에 노출시키지 않고 시스템 안전성 입증 ‘무위험 전임상 테스트 환경’ 제공”
이 가상 병원에서는 AI 개입 시점에 따라 위기 상황이 생생하게 구현된다. 가령 AI가 검사 처방을 지연시킬 경우 안정적이던 흉통 환자가 급성 심근경색으로 악화될 수 있다.
또한 AI가 특정 초응급 환자에게 CT 스캐너 등 핵심 자원을 우선 할당하면, 다른 환자들 대기열이 길어지는 현실적인 병목 현상도 발생한다.
AI 결정 하나가 특정 환자의 생사를 가르는 것은 물론 병원의 남은 자원마저 고갈시켜 다음 환자 진료 기회를 연쇄적으로 제한하는 실제 병원 환경을 구현한 것이다.
AI 결정은 생존 여부, 치료 시간, 가이드라인 준수 등 환자 예후와 총 입원 기간, 응급실 처리량, 병상 및 장비 활용도 등 병원 운영 효율성이라는 두 축을 합친 ‘이중 지표 복합 점수’로 평가된다.
병원 시스템을 훼손하지 않으면서 치료를 개선하면 보상이 주어지지만, 특정 환자에만 자원을 과도하게 집중해 다른 환자들의 진료 기회를 희생시키면 벌점이 부여되는 엄격한 균형을 요구한다.
나아가 전산망 마비나 다발성 응급 환자 발생 등 극한 상황의 적대적 스트레스 테스트도 진행한다.
이번 연구 핵심 의의는 환자를 위험에 노출시키지 않고 시스템 안전성을 입증하는 ‘무위험 전임상 테스트 환경’을 제공한다는 데 있다.
이처럼 검증을 거친 AI가 의료진 디지털 대리인이 돼 복잡한 시스템 실무를 전담하게 되면 의사는 시스템 처리 부담을 줄이고 환자 진료와 판단에 보다 집중할 수 있을 것으로 기대된다.
김성은 연구교수는 “이번 연구는 의료 AI가 단편적인 문제를 푸는 도구를 넘어 역동적인 의료체계 내 완전하게 통합돼 실제적인 도움을 주도록 검증하는 단계가 될 것”이라고 강조했다.
한편, 이번 연구결과는 국제학술지 ‘네이처 메디슨’ 온라인판에 최근 게재됐다.
? (AI) .
AI .
(LLM) AI (Clinical Environment Simulator, CES) 14 .
AI .
.
AI .
.
LLM .
, .
, .
“ ‘ ’ ”
AI . AI .
AI CT , .
AI .
AI , , , , .
, .
.
.
AI .
AI .
, .