본문 바로가기

데이터베이스(DA, AA, TA)/데이터처리

[빅데이터] 빅데이터 이해하기

빅데이터란 말을 직역하면 대용량 자료이지만, 비즈니스에서의 빅데이터는 대용량 자료를 의미하지는 않습니다.


빅데이터란,

조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석함으로써 해당분야의 필요지식을 추출하고, 전략적 의사결정에 활용하거나, 비즈니스 모델, 또는 서비스 모델의 개발 및 개선, 수행에 이용하는 제반 행위를 포괄적으로 일컫습니다.




어떤 데이터로부터 그 데이터를 추출해서 저장하고 그걸 분석해서 활용하는 일련의 과정 전체를 빅데이터라고 정의하는 것이 가장 적합합니다.


빅데이터의 주요 요소

1. 데이터

정형데이터(고객 데이터, 거래 데이터 등) + 비정형데이터(텍스트, 동영상, 음성, 센서, GPS, SNS 등)

2. 데이터 수집, 처리, 저장 기술

비정형적인 데이터를 저장할 수 있는 새로운 형태의 스토리지 필요, 대용량 데이터를 핸들할 수 있는 플랫폼 예) NoSQL, Hadoop 등 비정형 데이터베이스 프레임워크

3. 데이터 분석 및 지식추출 기술

데이터를 분석하여 가치있는 정보, 또는 지식을 도출해 내는 기술

통계, 데이터 마이닝(데이터로부터 여러가지 지식을 추출하는 기법), 텍스트 마이닝 등등 다양항 분석 기법들이 존재

4. 인재, 조직

빅데이터에서 의미있는 정보를 도출하여 이를 전략적으로 활용할 수 있는 인재나 조직

예) 데이터 과학자(Data Scientist)


빅데이터 출현배경

과거에 비하여 기업 내 전산화가 굉장히 잘 이루어지고 있습니다. 이에 따라서 아래와 같은 현상이 발생하였습니다.

기업의 고객 데이터 트래킹/수집 행위가 증가

멀티미디어 콘텐츠와 컨텐츠 사용에 관한 정보 증가

트위터나 페이스북 등 소셜 네트워크 서비스(SNS)의 급격한 확산과 비정형 데이터의 폭증

M2M(Machine to Machine) 확산에 따른 센서 데이터 증대

데이터 저장매체 가격 하락


생성할 수 있는 데이터의 양이 많아지고, 데이터 저장 비용도 낮아지고, 그걸 분석하여 가용한 정보나 지식을 추출할 수 있는 가능성이 생기는 상황으로 빅데이터가 출현하고 중요한 이슈로 자리잡게 되었습니다.



빅데이터의 시대

빅데이터는 미래 경쟁력을 좌우하는 21세기의 원유이다 - Gartner

빅데이터는 혁신, 경쟁과 생산성에 있어서 차세대 첨단 주자다 - McKinsey, 2011

데이터는 화폐나 금처럼 새로운 자산이 될 것이다 - Davos Forum


빅데이터는 IT나 인터넷의 발달로 인해서 데이터가 굉장히 많이 생성되고 그것이 저렴한 비용에 의해서 저장되고 분석 가능성이 점점 생겨나고 있다는 데서 기인한 것입니다.


모든 것이 인터넷을 통해서 사물들이 연결되는 그런 상황에서 발생하는 모든 활동들이 데이터로 남기때문에, 그 데이터가 남은 환경이 만들어지고, 그로인해 빅데이터의 중요성이 점점 강조되고 있는 상황입니다.




빅데이터의 주요 특징

1. Volume(규모)

- 축적되는 데이터의 크기가 수직 확장의 물리적 한계를 초과할 정도로 거대합니다.

- 페타(Peta), 제타바이트(Zettabytes) 등 새로운 단위로 빠르게 증가

- 해마다 디지털 정보량이 기하급수적으로 폭증하는 추세

PetaByte = 1024TB < ExaByte[EB] = 1024 PB < ZettaByte[ZB] = 1024 EB


2. Variety(다양성)

- 비정형적이고 다양한 데이터를 분석 대상으로 함

  기존: 데이터베이스나 데이터웨어하우스 등 정제되어 있는 정형 데이터 분석 위주

  빅데이터: 텍스트, 소셜네트워크, 로그기록 등 분석대상 데이터의 종류가 다양해짐.


3. Velocity(속도)

과거 : 순차적 데이터 처리 배치방식으로 처리

현재 : 데이터 처리 및 분석이 실시간


4. Veracity(정확성)

- 가치있는 지식이나 정보를 추출하려면, 데이터의 품질 또는 데이터의 정확도가 성과에 중대한 영향을 끼침.

- 노이즈(noise)를 제거하고 시그날(signal)을 확보함으로써 데이터의 신뢰성을 제고


5. Value(가치)

- 빅데이터의 가치는 데이터의 정확성과 시간성과 관련이 있음
(하루 단위로 데이터의 가치가 떨어질 수 있음)



빅데이터 분석 과정

빅데이터는 데이터 자체가 목적이라기 보다는 데이터를 잘 수집하여 저장하고, 잘 분석하여, 잘 활용하는 것이 목표입니다. 빅데이터를 도입하여 활용하기 까지는 아래와 같은 분석과정을 거치게 됩니다.


데이터 : 데이터가 어디있는가 데이터 소스를 인식하는 단계

수집 : 데이터를 모으는 행위

저장 : 데이터를 어딘가에 저장.

처리 : 분석 가능한 상태로 처리.

분석 : 데이터 안의 정보 및 지식을 추출

표현 : 분석결과를 활용하여, 의사결정 혹은 다양한 여러분야에 활용.



1) 데이터의 인식 단계

분석을 전제로 가용한 데이터를 확인하는 단계입니다.

  내부데이터 : 해당 조직이 자체적으로 보유한 각종 데이터

    예) 현재 및 과거의 매출정보, 고객정보, 제품정보 등

  외부 데이터 : 인터넷 등으로 연결되어 조직 외부에 존재하는 각종 비정형 데이터

    예) 소셜 미디어 데이터 등


2) 데이터의 수집 단계

조직 내부와 외부의 여러 데이터 소스로부터, 필요로 하는 데이터를 검색하여 수동 또는 자동으로 수집하는 단계입니다.

 - 검색, 수집, 변환을 통해 정제된 데이터를 확보

    데이터웨어하우스 : 데이터분석을 위한 데이터

 - ETL(Extraction, Transformation, Loading)

 - 웹 크롤링(Web Crawling) 등


3) 데이터의 저장 단계

대용량의 정형, 비정형 데이터를 저장, 관리하여 데이터 분석 및 활용을 지원하는 단계입니다

  - 빅데이터를 위한 데이터 베이스

   예) Hadoop, NoSQL 등 비정형 데이터 베이스


4) 데이터의 처리 단계

엄청난 데이터 양과 데이터 생성 속도, 다양한 형태의 데이터를 통합적으로 다루는 기술

일괄처리: 쌓인 데이터를 여러 서버로 분산해 나누어 처리, 이를 다시 모아 결과를 정리

실시간처리: 데이터가 들어오는 대로 일련의 처리 업무들을 수행하여 그 결과를 연속적으로 제공


5) 데이터의 분석 단계 : 가장 중요, 빅데이터는 저장이 아닌 분석에 그 목적이 있음.

- 대량의 데이터로부터 사실, 추세, 관계, 패턴 등 알려지지 않은 정보, 또는 지식을 찾아내는 과정

   통계 분석(Statstical Analysis), 데이터 마이닝(Data Mining), 텍스트 마이닝(Text Mining), 소셜 네트워크 분석(Social Network Analysis) 등


6) 데이터의 표현 단계 : 분석만큼이나 중요함

- 데이터 분석 결과를 쉽게 이해할 수 있도록 시각적인 수단으로 정보를 전달하는 과정

   예) 시간 시각화, 분포 시각화, 관계 시각화, 인포그래픽 등




빅데이터의 활용

의사결정의 질 제고: 의사결정 효과성 및 적시성 향상

운영효율 제고: 데이터 분석을 통해 도출된 시직을 시스템화하여 업무 적용(운영계 적용)

새로운 가치 창출: 새로운 비즈니스, 또는 서비스 모델 창출