본문 바로가기

서버운영 (TA, ADMIN)/정보보안

[정보보안] 비식별화 (k-익명성, l-다양성, t-근접성)

비식별화 개념


비식별화, 비식별 조치, 익명화는 프라이버시 보호와 함께 데이터를 활용할 때, 관계형 모델을 따르는 마이크로 데이터의 일회성 변환/배포에 해당되는 개념입니다.


식별자(Identifiers)

개인을 식별할 수 있는 속성들(1:1 대응이 가능한 모든 정보)을 말합니다. 주민번호, 전화번호, 이메일, 이름, 계좌번호, MRI 사진, 유전자 정보 등이 있으며, 암호화된 값도 식별자로 분류됩니다. 비식별 조치시 무조건 "삭제" 되어야 합니다.


준식별자(QI: Quasi-Identifiers)

자체로는 식별자가 아니지만, 다른 데이터와 결합을 통해 특정 개인을 간접적으로 추론하는데 사용될수 있는 속성들(거주 도시명, 몸무게, 혈액형 등)을 말합니다. 비식별화 기법들에서 변형/조작의 대상이 됩니다.


민감정보(SA:Sensitive Attributes)

개인의 사생활을 드러낼 수 있는 속성(병명, 예금 잔고, 카드 결제 액)을 말합니다. 데이터 분석시 주로 측정되는 대상 속성으로, 대부분의 현대적 비식별화 기법들에서 데이터 값들을 보존합니다.



비식별화란?

식별자 제거를 통한 식별방지 및 프라이버시 모델 기반한 추론을 방지하는 것을 말합니다. 빅데이터 비식별화 기본 원칙에는 식별방지(식별자 제거), 추론방지(프라이버시 모델 준수) 두가지가 존재합니다. 여기서 프라이버시 모델이란 다양한 추론 공격에 대해 개인정보 추론 위험 정도를 확률적/정량적으로 제한하는 방법론입니다.




프라이버시 모델이란?

프라이버시 모델이란 가능한 추론의 형태와 프라이버시 노출에 대한 정량적인 위험성을 규정하는 방법입니다.


관계형 마이크로 데이터를 위한 프라이버시 모델

- k-anonymity(익명성), l-diversity(다양성), t-closeness(근접성)

- δ-presence, m-invariance, m-confidentiality, m-privacy 등


기타 유형의 데이터를 위한 프라이버시 모델

- 그래프 데이터, 스트림 데이터, 위치 데이터 등


차등 사생활 기술(Differential Privacy)



PPDM(Privacy Preserving Data Mining)을 위한 프라이버시 모델로 PPDP(Privacy Preserving Data Publishing)과는 다른 목적의 응용분야입니다. 데이터를 공개하지 않고 사용자가 요청한 질의를 처리해서 결과를 돌려줍니다. 질의 결과들을 통해 개인의 프라이버시가 누출되지 않도록 감시 및 관리합니다.



K-익명성


환자의 의료 정보를 연구 목적으로 개인정보 보호 처리(성명 속성을 삭제) 배포합니다.


연결 공격(linking attack)

준식별자 정보는 공개된 정보를 통해 추론의 근거로 사용가능합니다. 준식별자 값들의 조합(연령, 성별, 우편번호 등의 조합)을 통해 배포된 데이터의 개인이 추론되어 민감정보가 노출될 수 있게 됩니다.




이 때, k-익명성이란? 한 개인이 k-l명의 다른 사람(레코드)와 구별되지 않아야 합니다. 민감하지 않은 속성을 수정하여 획득할 수 있습니다.




l-다양성


k-익명성 모델은 동질성 공격에 취약합니다. 데이터가 k-익명성을 만족하더라도, 아래와 같은 경우라면, 개인의 민감정보가 노출될수 있습니다.




l 다양성은 각 블록이 적어도 l개의 다양한 민감정보를 가지고 있어야 한다는 조건을 만족해야 합니다. (블록은 데이터에서 민감하지 않은 속성 값이 동일한 레코드 집합을 말합니다)




t-근접성

l-다양성을 만족하더라도 (모집단 대비) 민감한 정보의 분포 차이를 통해 개인 사생활 정보가 노출되는 문제 발생 가능합니다. 예를 들어 아래 1,2,3에 해당하는 레코드는 급여가 '30~50백만원'사이이며, '위'와 관련된 질병을 가지고 있다는 사실이 노출됩니다.



t-근접성은 데이터 집합에서 구별되지 않는 레코드들의 민감한 정보의 분포와, 전체 데이터의 민감한 정보의 분포의 차이를 t이하로 만들어 프라이버시를 보호하는 모델을 말합니다. (cf. EMD를 사용하여 분포의 차이를 계산)




비식별화 절차


1. 데이터에 대한 이해

 - (개인정보 여부 판단)

 - 식별자(ID) / 준식별자(QI) / 민감정보(SA) 구분 → 식별자 삭제

 - 민감정보의 중요도(or 위험성) 판단

 - 비식별화 이후의 데이터 활용 방향 예측(데이터 손실량/데이터 활용성/위험성에 대한 종합적 고려)


2. 비식별화 방법 결정하기

 - 프라이버시 모델 및 안전도 수준 (k, l, t ...)

 - 모델을 구현하는 알고리즘 (기술) 선택하고, 필요시 선택된 기술에 따른 추가 작업


3. 비식별화 수행

 - 선택한 알고리즘/프로그램 수행


4. 데이터 품질 평가

 - (필요시) 단계2로 이동


5. 비식별 적정성 평가(외부인이 포함된 전문가 평가단; k,l,t 모델 사용)

 - (부적정 평가시) 단계2로 이동하여 비식별 조치 재수행


6. 변환(비식별화)된 데이터 배포 (+ 사후관리)


1. 비식별화 대상 데이터 이해하기

데이터 내용 및 형태에 대한 이해 단계로 환자의 질병 정보를 포함한 의료데이터로 아래 그림은 식별자 1개, 준식별자 3개, 민감정보 1개가 포함되 있는 데이터입니다.



이후 식별을 방지하기 위한 목적으로 식별자를 제거합니다.




2. 비식별화 방법 결정하기

프라이버시 모델, 알고리즘 및 솔루션을 선정하는 단계입니다. 제일 먼저, 프라이버시 모델 및 안전도 기준을 설정합니다. 모델에는 앞서 설명한 k-익명성, l-다양성, t-근접성 등이 존재하며 k, l, t 값이 안전도의 기준이 됩니다. 프라이버시 모델이 선정되면 모델에 따른 알고리즘과 솔루션을 선정합니다.



3. 비식별화 작업 수행

비식별화 솔루션별 매뉴얼에 따라 수행됩니다. 데이터 및 일반화 규칙 입력, k,l,t 기준 값 입력, 프로그램 실행, 결과 데이터 확인의 순서로 진행합니다.



4. 데이터 품질 평가

비식별화된 데이터에 대한 적정성 검증 단계로, 입력 값으로 설정한 k, l, t 기준에 부합하는 데이터가 적절히 생성되어 안전도가 보장되는지 프라이버시 안전도를 검증하고 데이터 품질 조사 및 평가가 수행되는 단계입니다. 데이터 품질 조사 및 평가 순서에서는 과도하게 변형된 데이터는 활용성이 떨어지고, 품질 평가가 만족스럽지 못할 경우 다시 단계2로 돌아가게 됩니다. 프라이버시 안전도 수준, 일반화 규칙, 알고리즘 등을 수정 후 비식별화 작업을 재수행하게 됩니다.



비식별 조치 적정성 평가


정성적 평가 단계 (데이터 이해 및 비식별 기법 적용의 적정성을 판단)

(1) 식별자 삭제 여부

(2) 준식별자 및 민감정보 분류의 적정성

(3) 프라이버시 모델의 적정성

(4) 사용한 비식별 기술/제품의 적정성


정량적 평가 k, l, t 값의 측정

비식별화 과정에서 사용한 동일한 프로그램 사용 가능하며, 데이터의 형태 및 저장/처리 환경에 따라 RDBMS 혹은 MS Excel 등의 프로그램으로 측정하거나 별도의 "간단한" 프로그램을 만들어서 측정 가능합니다.


최종평가는 정성평가와 정량평가를 토대로 이루어지며,

데이터의 민감성/위험성 대비 k(또는 l, t) 값의 적절성을 판단하게 됩니다.