검색이란 무엇인가? "책이나 컴퓨터에서 목적에 따라 필요한 자료를 찾아내는 일"
검색 시스템 이란 무엇인가? "전자화된 문서로부터 사용자가 원하는 정보"를 찾는 작업을 수행하는 시스템 집합
백그라운드 작업 (수집 / 정제 / 색인): 문서가 새로 생성되고 바뀌므로, 주기적으로 계속 반복해서 일어난다.
리얼타임 작업 (서빙): 사용자가 일회성으로 검색 요청을 보냈을때 응답을 준다.
1) 수집 (전자화된 문서를 모으는 시스템)
- 검색할 문서를 수집
- 다양한 문서양식 이해, 문서/사이트 품질 판단
- 수집 시스템
2) 정제 (문서를 검색에 알맞게 가공하는 시스템)
- 문서에서 검색에 유효한 부분을 추출하고 가공
- 대규모 데이터 처리, 시스템 가용성
- 저장소 + 정제 플랫폼 + 문서 관리
3) 색인 (가공한 문서로부터 색인 구조를 만드는 시스템)
- 빠른 문서 탐색을 위한 색인 자료 구조 생성
- 증분식 반영
- 색인어 추출 시스템 + 색인 생성 시스템
4) 서빙 (사용자 요청을 받아서 검색 결과를 반환하는 시스템)
- 주어진 질의에 대한 문서를 수집 / 선별 / 정렬
- 빠른 탐색과 정렬 / 부하 분산 / 가용성
- 검색엔진 + 응용 서버 + 표현 계층 + 통합 검색 시스템
하둡 프레임워크 요소
MapReduce (Processing using difference languages)
Hive (Analytical SQL on Hadoop) / HBase (NoSQL Database)
Zookeeper (Coordination) / Ambari (Cluster Management)
Hue (Web Interface)
Spark (In-Memory Data Flow Engine)
Zeppeline (Interactive data analytics)
Kafka (Streaming Platform) / Storm (Streaming Processing)
Oozie, Airflow (Scheduling)
Slider (Support Long-live Application)
Hadoop Yarn (Resource Management) / Hadoop HDFS (Storage)
'데이터베이스(DA, AA, TA) > 데이터처리' 카테고리의 다른 글
[R] 데이터 개념 이해하기 (1) | 2018.06.24 |
---|---|
[빅데이터] 데이터과학 산책 강의 (0) | 2018.06.02 |
[Spark] 스파크 ML 패키지 (0) | 2017.12.02 |
[Spark] 데이터 모델링 준비하기 (0) | 2017.12.02 |
[Spark] 데이터프레임 (1) | 2017.11.26 |