본문 바로가기

데이터베이스(DA, AA, TA)

(143)
[빅데이터] 빅데이터 이해하기 빅데이터란 말을 직역하면 대용량 자료이지만, 비즈니스에서의 빅데이터는 대용량 자료를 의미하지는 않습니다. 빅데이터란, 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석함으로써 해당분야의 필요지식을 추출하고, 전략적 의사결정에 활용하거나, 비즈니스 모델, 또는 서비스 모델의 개발 및 개선, 수행에 이용하는 제반 행위를 포괄적으로 일컫습니다. 어떤 데이터로부터 그 데이터를 추출해서 저장하고 그걸 분석해서 활용하는 일련의 과정 전체를 빅데이터라고 정의하는 것이 가장 적합합니다. 빅데이터의 주요 요소 1. 데이터 정형데이터(고객 데이터, 거래 데이터 등) + 비정형데이터(텍스트, 동영상, 음성, 센서, GPS, SNS 등) 2. 데이터 수집, 처리, 저장 기술 비정형적인 ..
[빅데이터] 사진과 동영상같은 비정형 데이터 수집 방법 컴퓨터에게 이미지란 픽셀의 휘도값(픽셀의 밝기), RGB값(픽셀의 색)이 2차원으로 배열된 데이터입니다. 즉, 이미지를 단순한 숫자 집합으로 인식하는 것입니다. 이미지 인식을 지도 학습 기반의 기계학습으로 실행하는 것을 예로 들어보겠습니다.대량의 이미지와 이미지에 해당하는 물체명이 쌍을 이루는 훈련데이터가 있다고 가정합니다.이러한 훈련 데이터를 컨볼루션신경망(CNN), 심층신뢰신경망(DBN) 등의 알고리즘으로 구현된 학습기에 넣고 훈련한 결과로 학습 모형을 구축합니다. 결과적으로 훈련 데이터를 통해 원본데이터의 특성을 학습한 모형은 새로운 이미지를 입력했을 때 그 이미지가 어떤 물체인지 인식하게 됩니다. 이를 통해 사진 자동 태깅, 내용 기반 이미지 검색 등이 가능해지는 것입니다.
[MySQL] 쿼리 실행 구조 및 쿼리 캐시 쿼리 실행 구조 쿼리 실행구조는 기능별로 다음과 같이 나눠질 수 있습니다. 1) 파서파서는 사용자 요청으로 들어온 쿼리 문장을 토큰(MySQL이 인식할 수 있는 최소 단위의 어휘나 기호)으로 분리해 트리 형태의 구조로 만들어 내는 작업을 의미합니다. 쿼리 문장의 문법 오류는 이 과정에서 발견되어 사용자에게 오류 메시지를 전달하게 됩니다. 2) 전처리기파서 과정에서 만들어진 파서 트리를 기반으로 쿼리 문장에 구조적인 문제점이 있는지 확인합니다. 각 토큰을 테이블 이름이나 컬럼 이름 또는 내장 함수와 같은 개체를 매핑해 해당 객체의 존재 여부와 객체의 접근 권한 등을 확인하는 과정을 이 단계에서 수행합니다. 실제 존재하지 않거나 권한상 사용할 수 없는 개체의 토큰은 이 단계에서 걸러집니다. 3) 옵티마이저옵..
[Real MySQL] MySQL 아키텍처 보호되어 있는 글입니다.
[하둡] 하둡 분산처리시스템 구성요소 분산 처리 시스템 하나의 작업에 여러대의 machine을 두고, MPI(Message Passing Interface)를 사용하는 시스템입니다. 하지만, 분산처리 시스템에도 문제가 있습니다. 분산 처리 시스템의 문제점- 복잡한 프로그래밍(데이터 프로세스의 sync 유지) : MPI가 프로그래밍 하기 굉장히 복잡합니다.- Partial failures : 수많은 컴퓨터를 사용하는 경우에 일부의 컴퓨터가 고장나는 경우 시스템이 동작하지 않습니다. GFS(구글파일시스템)과 MapReduce가 나오기전, 분산처리 시스템은 Message Passing Inteface가 너무 복잡하여 프로그래밍하기가 어려웠습니다. 또한, 수만대의 분산 컴퓨터들이 하나만 고장이나도 동작을 안하게 되는 문제가 있었습니다. 이 문제를 ..