
![]()
"우리나라가 보유한 의료 데이터의 공공적 활용을 통해 '소버린(Sovereign) 바이오 AI' 체계를 구축해야 한다."
한국제약바이오협회 K-멜로디사업단 김화종 단장은 최근 본지가 주최한 '2025 대한민국 헬스케어 포럼'에서 연합학습 기반의 바이오 데이터 인프라 구축 필요성을 역설했다.
김화종 단장은 “챗GPT와 같은 거대언어모델은 인간 언어 인지와 생성 능력을 시뮬레이션한다. 바이오 분야도 유사한 방식의 '바이오 파운데이션 모델'이 확산되고 있다"고 밝혔다.
이어 "바이오 거대언어모델은 단백질 구조 예측 및 약물 설계, 독성 예측 등 다양한 작업에 사용되고 있으며 표현형 학습을 통해 단백질 구조와 약효까지 예측하는 접근이 가능해졌다"고 덧붙였다.
![]()
"문제는 데이터, 한국에 기회 있다"
김화종 단장은 바이오 거대언어모델 개발의 가장 큰 걸림돌로 '데이터 접근성'을 꼽았다.
언어모델의 경우 공개된 수 십억 개 문서를 학습할 수 있는 반면 바이오 데이터는 병원이나 제약사에 산재돼 있고, 개인정보 보호 문제로 학습이 쉽지 않다는 것이다.
하지만 그는 오히려 이를 '기회'로 봤다. 세계적으로 드문 전 국민 건강보험 시스템과 의료데이터 연계체계를 갖추고 있는 만큼 충분한 경쟁력이 있다는 판단이다.
그는 "정리된 고품질 데이터를 공공재로 보고 안전하게 활용할 수 있는 체계를 만들면 글로벌 바이오 AI 선도국가가 될 수 있다"고 강조했다.
이 같은 문제 해법으로 '연합학습(Federated Learning)' 개념을 소개했다.
연합학습은 데이터를 기관 외부로 이동하지 않고 AI 모델 가중치만 공유해 성능이 우수한 AI 모델을 협력해 만드는 기술을 말한다.
그는 "구글도 스마트폰에서 데이터를 학습시키는 방식으로 이미 적용하고 있고, 유럽에서는 다수의 제약사가 연합해 전임상 예측모델을 공동 개발했다"고 설명했다.
이와 관련, 한국에서도 지난해 4월부터 'K-멜로디'를 시작해 병원, 연구소, 기업 데이터를 연합학습 방식으로 모아 신약 개발 예측모델을 개발 중이며 이 사업단이 바로 'K-멜로디'라고 소개했다.
![]()
"국민 데이터로 수익 내서 궁극적으로 공공에 환원"
의료 데이터를 공공자산으로 활용해야 한다는 점도 강조했다.
그는 "국민의 동의를 얻어 데이터를 활용하고, 그 수익은 다시 공공에 환원하자"며, 이를 '국민 신약 배당'이라는 개념으로 표현했다.
또한 "병원, 연구기관이 데이터 유출 부담 없이 연구에 참여할 수 있도록 법제도 개선과 인센티브도 필요하다"고 제안했다.
이어 "신약 개발은 단순한 과학이 아닌 산업 전략"이라며 "우리나라도 바이오 산업을 국가 주도형으로 키우려면 지금이 기회"라고 말했다.
그는 "우리나라가 가진 의료 데이터 시스템은 큰 자산"이라며 "개인정보 보호 기술과 제도, 연합학습 체계를 결합하면 세계 최초의 '소버린 바이오 AI'를 구축할 수 있다"고 강조했다.
이어 "신약 개발에 AI 활용은 글로벌 바이오 시장에서 주도권을 쥘 수 있는 유일한 전략"이라며 "안전하게 데이터를 사용하되 국가 차원에서 바이오 AI 인프라를 조성해야 한다"고 덧붙였다.
???![]()
??" '(Sovereign) AI' ."
K- '2025 ' .
GPT . ' ' " .
" , " .
![]()
" , "
' ' .
, .
'' . .
" AI " .
'(Federated Learning)' .
AI AI .
" , " .
, 4 'K-' , , 'K-' .
![]()
" "
.
" , ", ' ' .
", " .
" " " " .
" " " , ' AI' " .
" AI " " AI " .