본문 바로가기

데이터베이스(DA, AA, TA)/데이터처리

(38)
[대용량데이터] 대용량 처리 컨셉 오버뷰 예전에는 여러대의 장비에서 데이터 필터링/서칭 등이 필요하면, 큰 하나의 파일을 n개로 나눠서 n개의 장비에 두고, 각 장비별로 filter/grep/join 등의 작업을 수행하는 방식이였다. (데이터가 있는 장비에서 필요한 작업은 데이터있는 장비에서 수행) 이런 경우. 장비에 장애가 났을때 원상태로 복원하는데까지 시간이 오래걸릴 수 밖에 없었다. 데이터 복사, 작업을 위한 데이터 정제. (MTTR 시간 지연) 현재는 계산 노드가 데이터를 갖고있는것이 아니라 각 노드가 무슨일을 하고 있는지 일을하는데 필요한 데이터를 그때그때 fetch하는 방식이다. 따라서 장애가 나더라도 장애난 노드의 역할을 다른 노드의 위임하는 방식으로 MTTR에 대한 이슈를 해결했다. 이를 내결함성(fault-tolerance)라고..
[ELK] 키바나 5.0 배우기 보호되어 있는 글입니다.
[R] 데이터 개념 이해하기 통계분석 데이터 처리 데이터의 특성이 의미있게 드러나도록 표, 차트, 도식으로 표현. 관심대상 선정 -> 테이블로 정리 (관찰 대상 선정 -> 속성 선정) ex. 관찰대상: 대학생 / 속성: 성별, 이름, 성적 등. 대상별로 서로 다른 값을 가질 수 있어. 속성을 변수(variable)라고 표현. variable이 정해지면, 변수에 기록값을 관찰치/측정치(case, observed value) 또는 변수값(value)라고 함. 관찰치의 모음(set) --> data / 관찰대상(행) 변수(열)의 합을 다시 자료(data) 또는 자료집합(data set)이라고 함. 통계분석은 주로 집단의 특성치 / 상관이나 인과를 파악하는 목적이므로. 하나의 관찰치는 분석 목적으로 유요하지 않음. (하나의 열: 최댓값, ..
[빅데이터] 데이터과학 산책 강의 CHAPTER11-1. 강좌 개요1-2. 데이터와 통계적 분석 절차1-3. 데이터의 정의와 역사1-4. 사례별 데이터 수집 절차 및 데이터 유형1-5. 산업의 발전 단계1-6. 정보 통신 수단의 발달에 따른 데이터 SW 변화1-7. 데이터와 4차 산업 변화 CHAPTER22-1. 데이터 생성/활용 사례2-2. 데이터의 산업체 활용 및 변화2-3. 데이터 현재 모습과 활용도의 변화2-4. 데이터 이용하기 (용도, 분석 절차, 역할)2-5. 빅데이터 활용 사례 CHAPTER33-1. 데이터 분석 개요3-2. 분석 기술의 종류3-3. 데이터 분석의 승패3-4. 회귀 분석 CHAPTER44-1. 군집 분석 정의 및 사례 14-2. 군집 분석 사례 24-3. 단어구름 분석 정의 및 사례 14-4. 단어 구름 사례..
[빅데이터] 검색시스템 간단 요약 검색이란 무엇인가? "책이나 컴퓨터에서 목적에 따라 필요한 자료를 찾아내는 일"검색 시스템 이란 무엇인가? "전자화된 문서로부터 사용자가 원하는 정보"를 찾는 작업을 수행하는 시스템 집합 백그라운드 작업 (수집 / 정제 / 색인): 문서가 새로 생성되고 바뀌므로, 주기적으로 계속 반복해서 일어난다. 리얼타임 작업 (서빙): 사용자가 일회성으로 검색 요청을 보냈을때 응답을 준다. 1) 수집 (전자화된 문서를 모으는 시스템) - 검색할 문서를 수집 - 다양한 문서양식 이해, 문서/사이트 품질 판단 - 수집 시스템 2) 정제 (문서를 검색에 알맞게 가공하는 시스템) - 문서에서 검색에 유효한 부분을 추출하고 가공 - 대규모 데이터 처리, 시스템 가용성 - 저장소 + 정제 플랫폼 + 문서 관리 3) 색인 (가공..