본문 바로가기

프로그래밍(TA, AA)/JVM 언어

(117)
[SPARK] 스파크 환경관련 메모 [HDFS란 무엇인가]HDFS는 하둡 분산 파일 시스템으로, 클러스터 환경에서의 작동을 전제로 설계되었다. NameNode라고 하는 마스터 노드와 DataNode라고 하는 복수의 워커 노드로 구성된다. NameNode: HDFS의 마스터 노드에 해당한다. HDFS상에 보존되는 파일의 메타데이터와 보존된 파일의 분할된 조각(블록)이 어떤 DataNode에서 관리되는지 등의 정보를 관리한다.DataNode: HDFS의 워커 노드를 말한다. HDFS상에 보존된 파일의 블록을 관리한다. HDFS는 슬레이브 노드인 DataNode를 추가함으로써 I/O처리량과 저장 용량을 스케일아웃할 수 있다. 또 블록을 기본 3개의 DataNode에 replica하여 보존함으로써, 일부 슬레이브 노드가 고장을 일으키더라도 데이터..
[SPARK] 스파크의 처리 모델 RDD 스파크의 데이터처리는 RDD라는 자료구조를 이용하다. 스파크의 프로그래밍 모델은 RDD를 가공해 새로운 RDD를 만들고, 이런 처리를 반복하여 원하는 결과를 얻는 형태다. 이런 동작원리를 자세히 알아보고 RDD의 구조와 특징, RDD 중심의 분산처리가 클러스터 환경에서는 어떤식으로 이루어질까? [RDD 구조와 특징]RDD는 대량의 데이터를 요소로 가지는 분산 컬렉션(거대한 배열과 리스트 등의 자료구조?)이다. RDD는 여러 머신으로 구성된 클러스터 환경에서의 분산처리를 전제로 설계되었고, 내부는 파티션이라는 단위로 나뉜다. 스파크에서는 이 파티션이 분산처리 단위다. RDD를 파티션 단위로 여러 머신에서 처리하므로 한 대의 머신으로 처리할 수 있는 것보다 더 큰 데이터를 다룰 수 있다. RDD는 배열/리스..
[SPARK] 아파치 스파크란? 아파치 스파크는 빅데이터처리를 위한 오픈소스 병렬분산처리 플랫폼입니다. "스트림처리" 수요 등에 대응하고자 스파크는 성능/편의성을 모두 고려하여 개발이 이뤄지고 있습니다. 스파크는 복수의 컴포넌트로 구성이 됩니다. 스파크 코어는 데이터소스로 HDFS(Hadoop Distributed File System) 뿐만 아니라 Hive, HBase, PostgreSQL, MySQL, CSV 파일 등도 처리할 수 있습니다. [ SQL처리용 라이브러리(스파크 SQL) + 스트림처리용 라이브러리(스파크 스트리밍) .. ][ 병렬분산처리 엔진(스파크 코어) ][ HDFS/하이브(Hive)/HBase/PostgreSQL/MySQL/CSV(데이터소스) ] 스파크는 대량의 데이터를 고속 병렬분산처리한다. 스파크는 데이터소스로..
[SPARK] 스파크 주요 키워드 spark.serializer = org.apache.spark.serializer.KryoSerializer(카이로 써드파티 직렬화 라이브러리)spark.rdd.compress = truespark.dynamicAllocation.maxExecutors = 512spark.debug.maxToStringFields = 1000 HiveMetaStore / hive.metastore storage.MemoryStorestorage.BlckmanagerInfo spark.sparkContext(애플리케이션 전체의 실행 관련 정보 집약 객체로 스케줄러 등이 포함 - RDD 생성시)spark.sparkSession(스파크컨텍스트에 세션정보가 추가로 포함 - DataFrame 생성시) sparkParquet(스..
[JVM] Java 애플리케이션의 OOME(Out Of Memory Error) Java 애플리케이션 환경인 WAS 기반에서 수행된 서비스들에 대해서는 흔히 JVM Heap 메모리 관련한 오류들을 흔히 접하게 됩니다. OOME는 Out Of Memory Error(Exception)이라고 하는데 JVM의 메모리가 부족하여 발생한 에러로 그 종류/원인은 다양합니다. Java.lang.OutOfMemoryError는 Java.lang.VirtualMachineError의 Subclass로 JVM의 Heap Memory에 더이상 Object를 할당할 수 없을때 발생하는 오류입니다. 1. Java.lang.OutOfMemoryError: Java heap spaceJava.lang.OutOfMemoryError : Java heap space는 Java의 Heap Memory 공간이 부족하..