의료인공지능 기술 '봇물'…활용성 저하 AI '신뢰도'
데이터 편향 '극복 과제' 부상…전문가들 "미래는 AI로 예상보다 큰 변화"
2023.11.20 19:05 댓글쓰기



#A기업이 마침내 엑스레이를 판독해 결핵을 진단하는 인공지능(AI)을 개발했다. 100만장의 엑스레이 사진으로 학습해 세계보건기구(WHO)가 제시한 민감도 90% 이상, 특이도 70% 이상 기준도 넘겼다. 


그런데 인도네시아의 한 초등학교에서 시험 사용을 하기로 한 첫날, 동행한 소아내과 전문의가 연신 고개를 갸우뚱한다. 의사가 보기에 결핵 감염으로 보이는 엑스레이 사진을 두고 AI는 문제가 없다고 넘기는 일이 반복해 일어난 것이다. 문제를 분석한 결과, 성인 결핵을 학습한 탓에 어린이의 결핵 판독 민감도가 크게 떨어졌다.


위 사례는 AI가 오류를 일으키는 가장 대표적 원인인 데이터 편향(bias)에 대한 예시다.


성인 데이터만 학습한 탓에 소아 임상에는 써먹지 못하는 첨단 장비로 전락한 것이다.


현재 의료AI 연구결과는 말 그대로 전 세계에서 쏟아지고 있다. 우리나라도 지난 2018년부터 2022년까지 식품의약품안전처에서 허가한 AI는 149개에 이른다.


하지만 실제 임상현장에서 활용도가 높은 AI는 아직까지 이렇다고 할만한 게 없다. 


의료AI가 현장에서 힘을 못 쓰는 이유는 보험 적용, 도입 환경 미비 등 여러 이유가 있지만 근본적으로 아직은 기술에 대한 신뢰도가 낮은 탓도 있다고 볼 수 있다.


인공지능 신뢰도 저하시키는 데이터 편향


대한의료인공지능학회 부회장을 맡고 있는 김남국 서울아산병원 융합의학과 교수는 “현재 AI에 대한 신뢰도는 AI 연구 초창기와 별 다를 바 없다. 막상 현장에서 제대로 쓰고 있는 AI는 별로 없고 의사가 절대로 안 틀리는 걸 AI는 틀리고 있다. AI가 당장 세상을 바꿀 것처럼 소란이지만 가까운 미래를 너무 과장하는 측면이 있다”라며 AI에 대한 환상을 경계했다.


AI의 낮은 신뢰도는 알게 모르게 나타나는 잦은 오류에서 비롯된다. 그리고 오류를 범하는 가장 큰 이유는 앞선 사례처럼 ‘데이터 편향’에서 기인한다.


김 교수는 “AI 학습을 위해 데이터를 다수 확보해야 하다 보니 대표성을 고려하지 않고 일단 모으는 데 급급한 경우가 많다”며 “그런 데이터로 학습해 정해진 기준을 넘으면 인허가가 되니 잘하는 것처럼 보여도 실제 현장에서는 말도 안되는 결과를 내기도 한다”고 말했다.


이처럼 대표성 없이 데이터를 수집한 탓에 편향이 생기기도 하지만, 애초 데이터 표본 자체가 불균형이 생기는 경우도 많다. 데이터 축적 역시 기득권에게 더 유리하기 때문이다. 


그래서 데이터 불균형은 곧 인종, 성별, 경제적 수준 등 사회적 차별 문제를 초래하기도 한다.


가령 미국 스탠퍼드대병원은 지난 2019년 전 세계 AI 발전에 기여하기 위해 6만5240명의 흉부 엑스레이 사진 22만4316장을 온라인에 무료 배포했다. 취지는 매우 좋았지만 이내 문제가 발생했다.


김 교수는 “스탠퍼드대병원의 데이터로 학습한 AI가 흑인 흉부 엑스레이 사진을 판독할 때만 계속 틀렸다”며 “스탠퍼드대병원이 부자들만 다니는 병원이라 대부분 확자가 백인이었기 때문”이라고 전했다.


희귀질환도 발생 빈도가 워낙 적어 데이터 불균형 불가피하게 일어난다. 


김 교수는 “의사는 한 번도 보지 못한 엑스레이 사진에서도 ‘뭔가 이상하다’고 느끼고 잘 잡아낸다. 반면 AI는 데이터 빈도가 극히 적은 질환에 대해서는 문제가 발생한다”고 말했다.


데이터 편향 외에도 AI가 정상 기능을 수행하지 못하는 이유는 다양한다. 특히 의료AI는 개발된 곳의 환경과 그를 적용하려는 임상현장 환경에 차이가 커서 오작동 하는 경우도 있다.


실제로 과거 WHO에서 개발도상국의 결핵 진단을 위해 엑스레이를 판독하는 AI를 공모했다. 개발도상국에 영상전문의가 턱없이 부족해 결핵 진단 여력이 없었기 때문이다.


국내 기업도 결핵 솔루션을 만들어 제출했다. 김 교수는 “어느 기업에서는 결핵 엑스레이 사진을 1만4000장 학습해 정확도가 99.9%에 달했다. 그런데 실제 현장에서는 WHO이 정한 정확도 기준을 넘지 못했다”고 전했다.


이유는 개발도상국의 낙후된 엑스레이 장비에 있었다. 


김 교수는 “AI는 국내에서 촬영한 고품질의 엑스레이 사진으로 학습했는데 낙후한 엑스레이 장비로 촬영한 결핵 데이터는 판독하지 못한 것”이라고 말했다.


“절박한 곳부터 본격적인 의료AI 활용 시작 전망” 


딥러닝 방식으로 학습한 AI는 왜 그런 식으로 작동했는지 알 수 없다는 데 맹점이 있다. 


개발자조차 AI가 왜 그런 식으로 작동했는지 알 수 없다. 답은 있는데 풀이 과정은 없는 것이다.


원인에서 결과까지 논리적인 인과성을 필요로 하는 의과학 분야에서 결과 도출까지 아무런 연유를 알 수 없는 AI는 계속 의심의 대상이 될 수밖에 없다.


이런 AI를 뜯어보기 위해 작동 방식을 사람이 이해할 수 있는 형태로 제시하는 ‘설명가능 AI’란 기술이 주목받고 있지만 당장 편향 문제를 해결할 수준에 이르지 못했다. 결국 데이터 편향을 해결하는 방법이 수월하다.


김 교수는 편향 문제를 해소하기 위한 노력으로 AI를 많이 가르치는 방법과 복잡하게 가르치는 방법 두 가지를 제시했다.


가령 기존에는 개발자가 원하는 질문에 맞는 답까지 매칭해서 AI에 입력해 학습시켰다. 


그러나 최근에는 다양한 질문에 다양한 답을 매칭하지 않은 상태에서 AI에 쥐여 주고 스스로 옳게 매칭할 때까지 학습시킨다. 방대한 양의 데이터를 이 방식으로 학습하기 위해서는 상당한 시간과 비용이 소요된다.


김 교수는 “챗GPT도 이같은 방식으로 만들어진 AI”라며 “의료AI에도 이를 도입하기 위해 여러 곳에서 시도 중”이라고말했다.


복잡하게 가르치는 방법도 있다. 예를 들어 기존에는 AI 그림을 판독할 때 부리 여부만 보고 새라는 것을 답했지만 포유류인 오리너구리 부리를 보고 새라고 오답을 할 때가 있었다.


이를 해결하기 위해 새라는 것을 판독하기 위해 부리뿐 아니라 깃털, 날개, 다리 등의 특징까지 학습하는 것이다. 이를 통해 AI 오답률은 크게 낮아지지만 하나의 개념을 가르치는데 훨씬 많은 사전 데이터가 필요하다.


다만 이들 최신 학습법은 공통적으로 상당한 시간과 비용이 소요된다는 단점이 있다. 이 때문에 구글, 마이크로소프트 등 굴지의 AI 기업에서나 상용화 연구에 도입하는 정도다. 


이외 데이터 편향을 줄이기 위해 기술적으로 편향성과 관련있는 변수를 찾아 조정하기도 한다. 


예를 들어 일부 데이터가 바뀌면 결과값이 어떻게 변하는지 그래픽으로 표현해주는 툴도 있다. 개발자가 만든 모델에 이 툴을 결합한 뒤 특정 변수를 바꿔보면 그 변수가 편향에 얼마나 영향을 미치는지 보기 쉬운 형태로 나타난다. 


김 교수는 “지금은 의료 안에서도 다양한 세부분야에 걸쳐 AI 적용 시도가 이어지고 있지만 한정된 자본 안에서 결국 환자든, 의사든, 정부든 절박한 쪽이 절박하게 원하는 것부터 본격적인 AI 활용이 시작할 것”이라고 전망했다. 


한 예로 의료 인력난에 허덕이는 진료과의 반복 작업에 투입될 가능성이 있다. 사람은 반복 작업이 거듭될수록 수행력이 떨어지지만 AI는 그렇지 않아서 상보적 역할을 할 수 있기 때문이다. 


김 교수는 “AI가 아직 기술적으로 부족한 부분도 있고 임상 상황에 따라 달리 활용해야 할 필요가 있다”며 “이 때문에 의사들의 양심적인 AI 활용이 굉장히 증요하다”고 말했다. 


이어 “AI가 지금 당장에 의료 분야에 엄청난 변화를 일으키진 못하지만 스마트폰이 나오고 20년 뒤 사회가 크게 바뀐 것처럼 20년 뒤 의료는 AI에 의해 생각보다 훨씬 더 크게 바뀌어 있을 것”이라고 내다봤다.


[위 내용은 데일리메디 오프라인 가을호에서도 볼 수 있습니다]


댓글 0
답변 글쓰기
0 / 2000
메디라이프 + More
e-談