본문 바로가기

데이터베이스(DA, AA, TA)/데이터처리

[빅데이터] 사진과 동영상같은 비정형 데이터 수집 방법

컴퓨터에게 이미지란 픽셀의 휘도값(픽셀의 밝기), RGB값(픽셀의 색)이 2차원으로 배열된 데이터입니다. 


즉, 이미지를 단순한 숫자 집합으로 인식하는 것입니다. 


이미지 인식을 지도 학습 기반의 기계학습으로 실행하는 것을 예로 들어보겠습니다.

대량의 이미지와 이미지에 해당하는 물체명이 쌍을 이루는 훈련데이터가 있다고 가정합니다.

이러한 훈련 데이터를 컨볼루션신경망(CNN), 심층신뢰신경망(DBN) 등의 알고리즘으로 구현된 학습기에 넣고 훈련한 결과로 학습 모형을 구축합니다. 결과적으로 훈련 데이터를 통해 원본데이터의 특성을 학습한 모형은 새로운 이미지를 입력했을 때 그 이미지가 어떤 물체인지 인식하게 됩니다.


이를 통해 사진 자동 태깅, 내용 기반 이미지 검색 등이 가능해지는 것입니다.