본문 바로가기

데이터베이스(DA, AA, TA)/데이터처리

(38)
[Kafka] 카프카 파티션의 이해 토픽의 파티션 수가 증가함에 따라 빠른 전송이 가능하다. 그렇다면 토픽의 파티션 수를 많이 늘리는 것이 무조건 좋은 것은 아니다. 파티션 수가 늘어나면 오히려 카프카에 좋지 않은 영향을 미칠 수도 있다. (1) 파일 핸들러의 낭비 각 파티션은 브로커의 디렉토리와 매핑되고, 저장되는 데이터마다 2개의 파일(인덱스와 실제 데이터)이 있다. 카프카에서는 모든 디렉토리의 파일들에 대해 파일 핸들을 열게 된다. 결국 파티션의 수가 많을수록 파일 핸들 수 역시 많아지게 되어 리소스를 낭비하게 된다. (2) 장애 복구 시간 증가 카프카는 높은 가용성을 위해 리플리케이션을 지원한다. 브로커에는 토픽이 있고, 토픽은 여러 개의 파티션으로 나뉘어 있으므로, 브로커에는 여러 개의 파티션이 존재하게 된다. 또한, 각 파티션마..
[ELK] 키바나 사용법 정리 키바나는 오픈소스 웹기반 분석 및 시각화 도구다. 엘라스틱서치에 저장된 데이터를 다양한 테이블과 지도, 차트 등을 사용해 시각화할 수 있다. 사용자는 간단한 인터페이스를 사용해 손쉽게 엘라스틱서치에 저장된 많은 양의 데이터를 탐색하고 실시간으로 데이터 분석을 할 수 있다. 키바나는 시각화 생성에 사용하는 데이터를 쿼리하기 위해 엘라스틱서치에 의존하는 시각화 도구이다. 따라서 키바나를 사용하려면 엘라스틱서치를 설치하고 실행해야 한다. 키바나는 JVM에서 실행되는 엘라스틱서치와 로그스태시와 달리 node.js로 실행하는 웹애플리케이션이다. 키바나를 실행하면 http://localhost:9200 에서 구동 중인 엘라스틱서치에 연결을 시도한다. 기본 포트는 5601로 시작하며, 웹브라우저를 사용해 접근할 수 ..
[데이터처리] 로그데이터 다루기(2) - 수집 미들웨어 Fluentd란? 보호되어 있는 글입니다.
[데이터처리] 로그 데이터 다루기 (1) - 수집 미들웨어 Fluentd 중심 보호되어 있는 글입니다.
[빅데이터] 로그 분석/관리 기법 1장. 로그와 나무, 숲: 전체 그림로깅 시스템에 관한 배경 정보 제공. syslog/SNMP/로그데이터/저장 개념 오버뷰 2장. 로그로그 메시지가 무엇인가. 로그가 중요한 이유 3장. 로그 데이터 소스syslog 프로토콜과 SNMP, 윈도우 이벤트 로그 설명. 로그 데이터 소스 분류 4장. 로그 저장 기법로그보관/저장포맷/RDBM(Relational DataBase Management System)에 존재하는 로그 저장/하둡 사용법 5장. syslog-ng로그 수집을 위해 실제 환경에서 syslog-ng를 구현하는 방법 6장. 비밀 로깅은밀한 방식으로 로그를 수집하고자 하는 경우, 이를 가능하게 하는 많은 세부 내용 7장. 분석 목표와 계획, 준비, 검색 대상로그 데이터 분석 시작 전에, 먼저 목표를 ..