[빅데이터] 검색시스템 간단 요약

검색이란 무엇인가? "책이나 컴퓨터에서 목적에 따라 필요한 자료를 찾아내는 일"

검색 시스템 이란 무엇인가? "전자화된 문서로부터 사용자가 원하는 정보"를 찾는 작업을 수행하는 시스템 집합

백그라운드 작업 (수집 / 정제 / 색인): 문서가 새로 생성되고 바뀌므로, 주기적으로 계속 반복해서 일어난다.

리얼타임 작업 (서빙): 사용자가 일회성으로 검색 요청을 보냈을때 응답을 준다.

1) 수집 (전자화된 문서를 모으는 시스템)

- 검색할 문서를 수집

- 다양한 문서양식 이해, 문서/사이트 품질 판단

- 수집 시스템

2) 정제 (문서를 검색에 알맞게 가공하는 시스템)

- 문서에서 검색에 유효한 부분을 추출하고 가공

- 대규모 데이터 처리, 시스템 가용성

- 저장소 + 정제 플랫폼 + 문서 관리

3) 색인 (가공한 문서로부터 색인 구조를 만드는 시스템)

- 빠른 문서 탐색을 위한 색인 자료 구조 생성

- 증분식 반영

- 색인어 추출 시스템 + 색인 생성 시스템

4) 서빙 (사용자 요청을 받아서 검색 결과를 반환하는 시스템)

- 주어진 질의에 대한 문서를 수집 / 선별 / 정렬

- 빠른 탐색과 정렬 / 부하 분산 / 가용성

- 검색엔진 + 응용 서버 + 표현 계층 + 통합 검색 시스템

하둡 프레임워크 요소

MapReduce (Processing using difference languages)

Hive (Analytical SQL on Hadoop) / HBase (NoSQL Database)

Zookeeper (Coordination) / Ambari (Cluster Management)

Hue (Web Interface)

Spark (In-Memory Data Flow Engine)

Zeppeline (Interactive data analytics)

Kafka (Streaming Platform) / Storm (Streaming Processing)

Oozie, Airflow (Scheduling)

Slider (Support Long-live Application)

Hadoop Yarn (Resource Management) / Hadoop HDFS (Storage)

길은 가면, 뒤에 있다.