본문 바로가기

빅데이터

(13)
[ELK] ELK 스택(ElasticSearch, Logstash, Kibana)으로 데이터 분석 개발자로써 빅데이터를 다뤄볼 수 있는 영역은 빅데이터 엔지니어링 분야입니다. 대용량 데이터 수집이나 분석을 돕기위한 기술을 제공하는 가장 대표적인 영역이 ELK 스택으로 알고 있습니다. 개념은 익히 들어 알고 있지만 이 내용을 실제로 다뤄본적은 없는데요. IT 인터넷 강의 사이트 "인프런"에서 ELK 스택 관련 강좌를 무료로 제공하고 있습니다. 개발에 욕심있는 개발자라면 관심을 가질만한 기술 스택입니다. 강좌명은 "ELK 스택(ElasticSearch, Logstash, Kibana)으로 데이터"이며,총 19개 강의로 1시간 19분으로 구성되어 있습니다. 섹션1. 데이터과학 소개 및 환경 구축01 데이터 과학 소개 - 02:00 수강완료02 우분투에 엘라스틱서치 설치하기 - 03:00 수강완료 섹션2. ..
[하둡] 맵리듀스(MapReduce) 이해하기 맵리듀스는 여러 노드에 태스크를 분배하는 방법으로 각 노드 프로세스 데이터는 가능한 경우, 해당 노드에 저장됩니다. 맵리듀스 태스크는 맵(Map)과 리듀스(Reduce) 총 두단계로 구성됩니다. 간단한 예를 들면 fork-join의 개념을 들 수 있습니다. 큰 작업에 대해 fork로 분할하고 또다시 fork로 분할합니다. 작은 작업을 다시 join하게 됩니다. 하둡에서는 큰 데이터가 들어왔을 때 64MB단위 블럭으로 분할합니다. 각각 블럭에 대한 연산을 합니다. 구글에는 많은 텍스트 파일이 존재합니다. Word1, Word2, Word3... 텍스트 안에 단어가 몇 번 나왔는가하는 것을 계산하는 작업을 수행하게 됩니다. 즉, 텍스트파일을 64MB 단위로 잘라내어 각 블럭에 대해서 특정 단어가 몇번 출현했..
[Redis] 이것이 레디스다 발 행: 2013년 11월 5일지은이: 정경석 서버 사이드 백엔드 플랫폼 개발자로서 하루 수천만에서 수억 건에 이르는 요청을 처리하는 다양한 대용량 서비스를 구축 및 운영해왔다. 2013년 현재 삼성 스마트폰에 프리로드되는 앱의 백엔드 시스템을 개발 및 운영하고 있습니다. 삼성 앱스의 신규기능 추천서비스 HBase를 이용하여 개발. 머릿말 내용 일부 발췌:이 책은 NoSQL에 대해 짧게나마 짚어보고 나서 레디스에 대한 기본 기능부터 고급 설정 방법 및 운영 시 고려사항과 몇 가지 응용사례까지 깊이 있게 다뤄볼 것이다. 레디스는 일종의 데이터베이스이다. 전통적인 RDBMS와 자료구조 그리고 자바에 대한 사전 지식이 있다면 책 내용을 익히는 데 도움이 될 것이다. 하지만 사전에 그러한 지식이 없더라도 레디스..
[파이썬] 파이썬을 이용한 웹 크롤링 강좌 요즘 이직을 준비하고자, 이것저것 네트워크, 데이터 관련 대학강좌를 수강하고 있습니다.좋은 엔지니어가 되려면 백엔드 지식(인프라, 보안..) 특히 데이터 처리에 대한 지식은 필수인 것 같습니다. 파이썬 신경 안쓰고 있었는데, 빅데이터 수집 작업을 크롤링이라고 부릅니다. 빅데이터의 크롤링과는 같은 개념은 아니겠지만, 파이썬으로 웹크롤링 애플리케이션을 간단하게 구현할 수 있다고 하여, 본 강좌를 수강목록에 추가하였습니다. 개념을 익히는 것도 중요하지만, 개념과 실전은 또 다른 문제이다보니, 직접 크롤링을 구현해보고 싶었습니다. 예전 인턴시절에 PHP를 이용해 크롤러를 만든적이 있긴한데, 그때는 멋도 모르고 시키는 것만 했었습니다. 무언가를 알 수 있는 길이라는걸 인지하니 강의를 듣기 전 마음가짐부터가 달라지..
[빅데이터] 빅데이터 이해하기 빅데이터란 말을 직역하면 대용량 자료이지만, 비즈니스에서의 빅데이터는 대용량 자료를 의미하지는 않습니다. 빅데이터란, 조직의 내외부에 존재하는 다양한 형태의 데이터를 수집, 처리, 저장하여 목적에 맞게 분석함으로써 해당분야의 필요지식을 추출하고, 전략적 의사결정에 활용하거나, 비즈니스 모델, 또는 서비스 모델의 개발 및 개선, 수행에 이용하는 제반 행위를 포괄적으로 일컫습니다. 어떤 데이터로부터 그 데이터를 추출해서 저장하고 그걸 분석해서 활용하는 일련의 과정 전체를 빅데이터라고 정의하는 것이 가장 적합합니다. 빅데이터의 주요 요소 1. 데이터 정형데이터(고객 데이터, 거래 데이터 등) + 비정형데이터(텍스트, 동영상, 음성, 센서, GPS, SNS 등) 2. 데이터 수집, 처리, 저장 기술 비정형적인 ..