본문 바로가기

서버운영 (TA, ADMIN)/정보보안

[정보보안] 개인정보 비식별화란?

개인정보 수집, 이용 등에 대한 규제


개인정보란 살아있는 개인에 관한 정보로서 성명, 주민등록번호 및 영상 등을 통하여 개인을 알아볼 수 있는 정보를 말하며, 해당 정보만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼수 있는 것을 포함합니다.

또다는 정의로는 생존하는 개인에 관한 정보로서 성명, 주민등록번호 등에 의하여 특정한 개인을 알아볼수 있는 부호, 문자, 음성, 음향 및 영상에 등의 정보(해당 정보만으로는 특정 개인을 알아볼 수 없어도 다른 정보와 쉽게 결합하여 알아볼 수 있는 경우에는 그 정보를 포함)를 의미합니다.


비식별화된 개인정보

비식별화된 개인정보는 개인정보일까요? 개인정보가 아니라면 더 이상 '개인정보'로서 별도의 법적 규제대상이 아니라 할 수 있을까요?


개인정보 보호법 제 18조 (개인정보의 목적 외 이용, 제공 제한)

다음 각 호의 어느 하나에 해당하는 경우에는 정보주체 또는 제3자의 이익을 부당하게 침해할 우려가 있을 때를 제외하고는 개인 정보를 목적 외의 용도로 이를 제3자에게 제공할 수 있습니다. 통계작성 및 학술연구 등의 목적을 위하여 필요한 경우로서 특정 개인을 알아볼 수 없는 형태로 개인정보를 제공하는 경우입니다.


빅데이터 개인정보보호 가이드라인 (2014.12.23. 방통위)

제4조(공개된 정보의 수집, 이용) 정보통신서비스 제공자가 개인정보가 포함된 공개된 정보를 비식별화 조치한 경우에는 이용자의 동의 없이 수집, 이용할 수 있습니다. 다만, 이용자의 동의를 받거나 법령상 허용하는 경우에는 비식별화 조치를 취하지 아니하고 수집, 이용할 수 있습니다.

제10조(제3자 제공) 정보통신서비스 제공자는 개인정보가 포함된 공개된 정보, 이용내역정보, 생성 정보는 이용자 동의 없이 제3자 제공이 가능합니다.

제2조(정의) "비식별화"란 데이터 값 삭제, 가명처리, 총계처리, 범주화, 데이터 마스킹 등을 통해 개인정보의 일부 또는 전부를 삭제하거나 대체함으로써 다른 정보와 쉽게 결합하여도 특정 개인을 식별할 수 없도록 하는 조치를 말합니다.



신용정보의 정의

"금융거래 등 상거래에 있어서 거래 상대방의 신용을 판단할 때 필요한" 정보입니다.


(1) 특정 신용정보주체를 식별할 수 있는 정보 (성명, 주소, 주민번호 등)

(2) 신용정보주체의 거래내용을 판단할 수 있는 정보 (대출, 보증 등)

(3) 신용정보주체의 신용도를 판단할 수 있는 정보 (연체, 부도 등)

(4) 신용정보주체의 신용거래능력을 판단할 수 있는 정보 (재산, 소득 등)

(5) 이상의 사항과 유사한 정보 (조세 체납정보 등)


여기서 개인신용정보란 신용정보 중에서도 "개인의 신용도와 신용거래능력 등을 판단할 때 필요한 정보"를 말합니다.



신용정보법 - 개정법(2015.3.11. 개정, 2015.9.12. 시행)

신용정보회사, 신용정보집중기관 및 신용정보제공, 이용자는 신용정보를 수집, 조사 및 처리할 수 있습니다. 이 경우 이 법 또는 정관으로 정한 업무 범위에서 수집, 조사 및 처리의 목적을 명확히 하여야 하며, 이 법 및 [개인정보 보호법]에 따라 그 목적 달성에 필요한 최소한의 범위에서 합리적이고 공정한 수단을 사용하여 신용정보를 수집, 조사 및 처리하여야 합니다.


신용정보회사등이 개인신용정보를 수집하는 때에는 해당 신용정보주체의 동의를 받아야합니다. 다만, 다음 각 호의 어느 하나에 해당하는 경우에는 그러하지 아니합니다.


(1) 법률에 특별한 규정이 있거나 법령상 의무를 준수하기 위하여 불가피한 경우

(2) 신용정보주체와의 금융거래 등 상거래계약의 체결 및 이행을 위하여 불가피하게 필요한 경우

(3) 신용정보주체 또는 그 법정대리인이 의사표시를 할 수 없는 상태에 있거나 주소불명 등으로 사전 동의를 받을 수 없는 경우로서 명백히 신용정보주체 또는 제3자의 급박한 생명, 신체, 재산의 이익을 위하여 필요하다고 인정되는 경우

(4) 신용정보제공, 이용자의 정당한 이익을 달성하기 위하여 필요한 경우로서 명백하게 신용정보 주체의 권리보다 우선하는 경우, 이 경우 신용정보제공, 이용자의 정당한 이익과 상당한 관련이 있고 합리적인 범위를 초과하지 아니하는 경우에 한정합니다.


금융권 빅데이터 활성화 방안 (2015.6.3. 금융위원회)

신용정보법상 개인신용정보 개념은 식별성이 전제되지 않은 개별 거래내용, 신용도, 신용거래능력 판단정보를 개인신용정보 범위에서 제외하는 것을 말합니다. 개인정보보호법에 따라 비식별화할 경우 동의 목적 외 이용이 가능하다고 유권해석하였고, 금융 관련 정보를 비식별화하여 핀테크 기업 등에 제공하여 핀테크 기업의 빅데이터 활용을 지원합니다. 협회 공동으로 네거티브 방식의 금융권 비식별화 지침 마련하였고, 시행중입니다.



하지만, 실제로 비식별화/익명화에 관해 가이드라인 등에 규정한 것은 실무적으로나 현실적으로 큰 의미가 없고, 본격적 논의는 걸음마 단계입니다.




개인정보 익명화/비식별화 


개인정보 비식별 데이터에 대한 적정성 평가에는 Data masking: Pseudonymisation; Aggregation; Derived data items and banding 등을 통한 익명화 방법이 있으며, k-anonymity, I-diversity, t-closeness, differential privacy 등의 개념을 통한 익명화 수준이나 재식별 가능성 평가가 가능합니다. 



익명화/비식별화 방법론


 처리 기법

 주요 내용

 가명처리

(Pseudonymisation)

 개인정보 중 주요 식별요소를 다른 값으로 대체하여 개인식별을 곤란하게 함

(예) 홍길동, 35세, 서울 거주, 한국대 재학

   → 임꺽정, 30대 서울 거주, 국제대 재학

* 다른 값으로 대체하는 일정한 규칙이 노출되어 역으로 개인을 쉽게 식별할 수 있어서는 안됩니다.

 총계처리

(Aggregation)

또는 평균값

대체(Replacement)

 데이터의 총합 값을 보임으로서 개별 데이터의 값을 보이지 않도록 합니다.

(예) 임꺽정 180cm, 홍길동 170cm, 이콩쥐 160cm, 김팥쥐 150cm

   → 물리학과 학생 키 합 : 660cm, 평균키 165cm

* 단, 특정 속성을 지닌 개인으로 구성된 단체의 속성 정보를 공개하는 것은 그 집단에 속한 개인의 정보를 공개하는 것과 마찬가지의 결과가 나타나므로 그러한 정보는 비식별화 처리로 볼 수 없음 (예> 에이즈 환자 집단임을 공개하면서 특정인물 '갑'이 그 집단에 속함을 알 수 있도록 표시하는 것은 '갑'이 에이즈 환자임을 공개하는 것과 마찬가지임)


 처리 기법

 주요 내용

 데이터 값(가치) 삭제

(Data Reduction)

 데이터 공유, 개방 목적에 따라 데이터 셋에 구성된 값 중에 필요없는 값 또는 개인식별에 중요한 값을 삭제

(예) 홍길동, 35세, 서울 거주, 한국대 졸업 → 35세, 서울 거주

(예) 주민등록번호 901206-1234567 → 90년대 생, 남자

(예) 개인과 관련된 날짜 정보(자격취득일자, 합격일 등)은 연단위로 처리

(예) 연예인, 정치인 등의 가족 정보(관계 정보), 판례 및 보도 등에 따라 공개되어 있는 사건과 관련되어 있음을 알 수 있는 정보

 범주화

(Data Suppression)

 데이터의 값을 범주의 값으로 변환하여 명확한 값을 감춤

(예) 홍길동, 35세 홍씨, 30-40세

 데이터 마스킹

(Data masking)

 공개된 정보 등과 결합하여 개인을 식별하는데 기여할 확률이 높은 주요 개인식별자가 보이지 않도록 처리하여 개인을 식별하지 못하도록 함

(예) 홍길동, 35세, 서울 거주, 한국대 재학

  → 홍**, 35세, 서울 거주, **대학 재학

* 남아 있는 정보 그 자체로 개인을 식별할 수 없어야 하며 인터넷 등에 공개되어 있는 정보 등과 결합하였을 경우에도 개인을 식별할 수 없어야 함.



익명화/비식별화 방법론 예시


오리지널 데이터

 Name

 Race

 Birth Date

 Sex

 ZIP Code

 Complaint

 Sean

 Black

 9/20/1965

 Male

 02141

 Short of breath

 Daniel

 Black

 2/14/1965

 Male

 02141

 Chest pain

 Kate

 Black

 10/23/1965

 Female

 02138

 Painful eye

 Marison

 Black

 8/24/1965

 Female

 02138

 Wheezing

 Helen

 Black

 11/7/1964

 Female

 02138

 Aching joints

 Reese

 Black

 12/1/1964

 Female

 02138

 Chest pain

 Forest

 White

 10/23/1964

 Male

 02138

 Short of breath

 Hilary

 White

 3/15/1965

 Female

 02139

 Hypertension

 Philip

 White

 8/13/1964

 Male

 02139

 Aching joints

 Jamie

 White

 5/5/1964

 Male

 02139

 Fever

 Sean

 White

 2/13/1967

 Male

 02138

 Vomiting

 Adrien

 White

 3/21/1967

 Male

 02138

 Back pain


Masking: 4 항목의 식별자(identifier) 삭제

 Race

Complaint 

 Black

Short of breath 

 Black

Chest pain 

 Black

 Painful eye

 Black

 Wheezing

 Black

 Aching joints

 Black

 Chest pain

 White

 Short of breath

 White

Hypertension 

 White

 Aching joints

 White

 Fever

 White

Vomiting 

 White

 Back pain


일반화(reduction; suppression)

 Race

 Birth Date

 Sex

 ZIP Code

 Complaint

 Black

 1965

 Male

 021*

 Short of breath

 Black

 1965

 Male

 021*

 Chest pain

 Black

 1965

 Female

 021*

 Painful eye

 Black

 1965

 Female

 021*

 Wheezing

 Black

 1964

 Female

 021*

 Aching joints

 Black

 1964

 Female

 021*

 Chest pain

 White

 1964

 Male

 021*

 Short of breath

 White

 1965

 Female

 021*

 Hypertension

 White

 1964

 Male

 021*

 Aching joints

 White

 1964

 Male

 021*

 Fever

 White

 1967

 Male

 021*

 Vomiting

 White

 1967

 Male

 021*

 Back pain


총계(aggregation)

 Men Short of breath

 2




재식별/데이터 링크 예시


비식별화된 오리지널 데이터

 Name

 Race

 Birth Date

 Sex

 ZIP Code

 Complaint

 Sean

 Black

 9/20/1965

 Male

 02141

 Short of breath

 Daniel

 Black

 2/14/1965

 Male

 02141

 Chest pain

 Kate

 Black

 10/23/1965

 Female

 02138

 Painful eye

 Marison

 Black

 8/24/1965

 Female

 02138

 Wheezing

 Helen

 Black

 11/7/1964

 Female

 02138

 Aching joints

 Reese

 Black

 12/1/1964

 Female

 02138

 Chest pain

 Forest

 White

 10/23/1964

 Male

 02138

 Short of breath

 Hilary

 White

 3/15/1965

 Female

 02139

 Hypertension

 Philip

 White

 8/13/1964

 Male

 02139

 Aching joints

 Jamie

 White

 5/5/1964

 Male

 02139

 Fever

 Sean

 White

 2/13/1967

 Male

 02138

 Vomiting

 Adrien

 White

 3/21/1967

 Male

 02138

 Back pain


PHI(개인건강정보)가 포함된 데이터

 Name

 Birth Date

 Sex

 ZIP Code

 Smoker?

 Daniel

 2/14/1965

 Male

 02141

 Yes

 Forest

 10/23/1964

 Male

 02138

 Yes

 Helen

 11/7/1964

 Female

 02138

 No

 Hilary

 3/15/1965

 Female

 02139

 No

 Kate

 10/23/1965

 Female

 02138

 No

 Morison

 8/24/1965

 Female

 02138

 Yes


링크된 데이터

 Name

 Race

 Birth Date

 Sex

 ZIP Code

 Complaint

 Smoker?

 Daniel

 Black

 2/14/1965

 Male

 02141

 Chest pain

 Yes

 Forest

 Black

 10/23/1964

 Male

 02138

 Painful eye

 Yes

 Helen

 Black

 11/7/1964

 Female

 02138

 Wheezing

 No

 Hilary

 Black

 3/15/1965

 Female

 02139

 Aching joints

 No

 Kate

 White

 10/23/1965

 Female

 02138

 Short of breath

 No

 Morison

 White

 8/24/1965

 Female

 02138

 Hypertension

 Yes



재식별화 가능성



재식별 : 의료기록과 투표자 명부 사례

미국 매사추세츠주의 단체보험위원회에서 공무원들의 병원 진료기록을 연구목적 차원에서 공개하였습니다. 이 데이터를 이용해 개인을 재식별할 수 있는지 알아보기 위해, 매사추세츠주케임브리지시의 선거인 명부를 구입 및 비교해보았고, 의료데이터와 투표자 명부로부터 특정 개인(주지사)의 개인정보를 재식별을 할 수 있었습니다.




15개월 동안 150만 명의 핸드폰 이용자를 추적, 4개의 reference point 만으로도 95% 이용자 식별이 가능하게 되는 등 재식별 가능성은 상존합니다. 재식별 가능성은 여러 요소에 의해 영향을 받습니다.


데이터의 내용 및 구조, 공개의 형태, 공개된 데이터의 익명화 정도, 데이터에 대한 접근(access)을 둘러싼 사후적 관리, 준식별자(quasi-identifier)의 존재 및 관리, 공격자(adversary)의 존재가능성 및 기술적 능력 등등의 요소가 존재하며, 준식별자는 메사주세츠 사례의 경우, 선거인 명부가 해당됩니다. 



익명화/비식별화 평가


익명화/비식별화 수준에 대한 기술적 평가의 방법으로는 k-익명성(k-anonymity), l-다양성(l-diversity), t-근접성(t-closeness) 등의 프라이버시 수준 평가모델을 이용할 수 있습니다.


k-익명성: 주어진 데이터 집합에서 준식별자 속성값들의 동일한 레코드가 적어도 k개 존재하는 것.

l-다양성: 주어진 데이터 집합에서 함께 익명화 되는 레코드들을 적어도 l개의 서로 다른 민감한 정보를 갖는 것.

t-근접성: 동질집합에서 민감한 정보의 분포와, 전체 데이터 집합에서 민감한 정보의 분포가 t이하의 차이를 보여야 하는것



익명화/비식별화 수준 평가 : 예시(k-익명성)


이용가능한 의료데이터


이용가능한 추가데이터


이때 의료데이터와 추가데이터를 조합한 "linkage attack"을 통한 추론으로 김민준(13053, 28, 남자) 환자가 전립선염임을 알 수 있습니다. 다음은 익명화된 데이터의 예입니다.


익명화된 데이터(k=4)


이 경우에는 김민준(13053, 28, 남자)에 해당되는 데이터가 4개가 되므로, 질병 특정이 불가능합니다.



평가 기준값 결정시 고려사항에는 기초자료, 평가 대상 데이터의 준식별자 항목 수, 규모, 시간 흐름에 따른 누적 데이터 존재 여부 등의 데이터 특징, 사전검토 결과, 재식별 시도 가능성 분석 결과, 개인정보 유출 위험성 분석 결과가 있습니다.



비식별화(de-identification) vs 익명화(anonymisation)

방송통신위원회의 <빅데이터 가이드라인>이나 현재 발의된 법안들은 '익명화'가 아닌 '비식별화'라는 개념을 규정하고 있습니다. '비식별화'는 익명화와 달리 '재식별화'의 가능성을 내포하고 그 (상업적) 활용성을 보장하고자 하는 개념입니다.

한국 정부가 창안한 '비식별화'라는 개념은, 해외에서 인정되고 있는 '익명화'에 비해 그 내용이 모호할 뿐 아니라, 핵심 취지가 기업으로 하여금 정보주체의 동의 없이 개인정보를 수집 및 처리할 수 있게끔 허용하겠다는 것입니다.

현행 개인정보보호법은 개인정보 주체의 개인정보자기결정권을 실질적으로 보장하기 위하여 개인정보처리자가 '익명화'하더라도 정보주체의 동의 없이는 해당 개인정보를 통계 목적이나 연구 목적 등으로 제공하는 경우 외에는 제공할 수 없도록 규정하였습니다.

비식별화는 국제적으로 유래가 없는 개념입니다. 유럽연합이나 해외의 사례에서도 'de-identification'이라는 용어가 아닌 'anonymisation'라는 용어를 사용합니다.