
국민건강보험공단이 보건의료 빅데이터 활용 활성화와 개인정보 보호 수준 강화를 위한 정밀 컨설팅에 본격 착수했다.
공단은 최근 ‘가명정보DB 비식별 수준 진단 컨설팅’ 사업을 공고하고, 데이터 안전성과 활용성을 동시에 확보하기 위한 체계적인 점검에 돌입했다.
이번 사업 핵심은 가명정보 시스템 처리 절차 및 외부 제공 데이터셋의 비식별 수준을 정량적으로 진단하는 것이다. 아울러 공단 내부 데이터 활용 원칙과 관리 방안을 수립하기 위한 자문, 그리고 실무자를 대상으로 한 비식별 처리 기법 교육도 포함됐다.
컨설팅 대상은 연구자에게 제공 중인 11종의 대규모 원본 데이터셋으로 총 3억8402만건, 약 5.27TB에 달하는 방대한 분량이다.
주요 데이터로는 ▲검진대상자현황(4개 컬럼, 3.66GB) ▲사망 정보(2개 컬럼, 0.13GB) ▲인구사회경제수준(12개 컬럼, 15.13GB) ▲건강검진 결과(2017년 이전 및 이후, 총 458개 컬럼, 12.72GB) 등이 있다.
또 ▲요양급여비용인수명세서(30개 컬럼, 2729만건, 661.30GB) ▲요양급여진료내역(20개 컬럼, 2억4969만건, 3177.69GB) ▲요양급여상병내역(10개 컬럼, 5502만건, 723.53GB) ▲요양급여처방전교부상세(13개 컬럼, 5038만건, 678.04GB) 등 진료 관련 고위험 민감정보도 포함된다.
이들 데이터셋은 단일 항목 내에서도 수백만 건 이상의 정보를 담고 있어, 재식별 가능성 차단을 위한 고도화된 분석이 필수적이다.
이와 함께 10만명 규모로 표본 추출된 익명 수진내역 데이터셋도 진단 대상에 포함된다. 해당 데이터는 개인일련번호, 성별, 출생연도, 수진연도 등 9개 항목으로 구성돼 있으며, 외부 연구자 제공을 목적으로 활용될 예정이다.
공단은 비식별 조치의 적정성을 다층적으로 평가하고, 컬럼별 재식별 위험도를 정량 분석해 개선안을 도출할 계획이다.
기존 데이터의 유효성을 훼손하지 않는 범위 내에서 추가 조치를 설계하며, 제공 프로세스별 비식별 처리 방안도 제시한다.
공단 관계자는 “보건의료 빅데이터는 공공성과 민감성이 공존하는 자산”이라며 “이번 컨설팅을 통해 외부 연구자 제공 데이터의 신뢰성과 안전성을 강화하고, 내부 활용 체계를 정비하는 계기가 될 것”이라고 강조했다.
한편, 이번 용역은 제한경쟁입찰(협상에 의한 계약) 방식으로 진행되며, 예산은 총 2000만원, 계약일로부터 60일 이내 과업 완료가 요구된다.
.
DB , .
. , .
11 38402, 5.27TB .
(4 , 3.66GB) (2 , 0.13GB) (12 , 15.13GB) (2017 , 458 , 12.72GB) .
(30 , 2729, 661.30GB) (20 , 24969, 3177.69GB) (10 , 5502, 723.53GB) (13 , 5038, 678.04GB) .
, .
10 . , , , 9 , .
, .
, .
, .
, ( ) , 2000, 60 .