본문 바로가기

hdfs

(2)
[하둡] HDFS의 구현컨셉 및 설계 HDFS 기본 컨셉HDFS는 Java로 작성된 Google의 GFS 기반의 파일 시스템입니다. 기존의 파일 시스템(ext3, ext4 or xfs)의 상위에서 동작하게 됩니다. HDFS의 file 저장 방식1) File은 block 단위로 분할됩니다. (각 block은 기본적으로 64MB 또는 128MB 크기) - 만약 데이터가 180M라면 (64+64+64 총 3개의 블럭에 나눠 들어가게 됨)2) 데이터가 로드 될 때 여러 machine에 분산되어 저장됩니다. - 같은 file의 다른 block들은 서로 다른 machine에 저장됨 - 이를 통해 효율적인 MapReduce 처리가 가능3) Block들은 여러 machine에 복제되어 Data node에 저장됩니다. - 기본 replication은 3개 ..
[하둡] 하둡의 HDFS 사용법 하둡 HDFS 기본 사용법시스템과의 상호작용은 hadoop 이라는 명령어를 통해서 합니다. 만약 터미널을 열고, 인자 없이 명령어를 실행하면 도움말이 나옵니다. 이와 같이 실행하기 위해서, 아래 명령어를 실행합니다. $hadoop hadoop 명령어는 여러개의 서브 시스템으로 세분화 되어있습니다. 예를 들어, HDFS의 파일을 처리하기 위한 서브 시스템과 MapReduce Processing Job을 관리하고 실행하기 위한 서브 시스템이 있습니다. Step 1. Exploring HDFS하둡 프로그램에서 HDFS와 관련된 서브 시스템은 FsShell 이라고 합니다. 이 서브 시스템은 hadoop fs 명령어로 실행할 수 있습니다. 1. 데스크탑의 Terminal 아이콘을 더블클릭하여 Terminal을 실..