본문 바로가기

하둡(Hadoop)3

하둡(Hadoop)이란?(3) - 작업 처리 과정 위 그림은 전체 작업 처리 과정을 나타난 것인데요, k1 : 라인 번호, v1 : 문장 -> 맵 -> k2: 단어 , v2 : 단어 수 -> 파티셔닝/셔플링/소팅 -> k2 : 단어, v2 : 단어 수 목록 -> 리듀스 -> k3 : 단어, v3: 단어 수 합계 형태로 데이터를 저장합니다. 이 그림을 보고 아래 과정을 본다면 더욱 이해하기 수월합니다. 1. 하둡 설치 및 환경 설정 하둡은 총 3가지 모드로 실행이 가능한데요 이는 다음과 같습니다. (설치 과정에 관한 내용은 다음 포스팅에서....) •로컬 모드: 싱글 노드의 싱글 프로세스로 실행 (HDFS 사용 않음) •가상 분산 모드: 싱글 노드의 여러 프로세스에서 실행 •분산 모드: 여러 노드의 여러 프로세스에서 실행 • Input/output fil.. 2020. 6. 22.
하둡(Hadoop)이란?(2) - MapReduce를 이용한 WordCount (이어서) 앞서 MapReduce 프로그램은 맵과 리듀스 두 함수로 구성되어있음을 보았는데요, 예시를 통해 MapReduce 어플리케이션이 어떻게 작동하는지 보도록 합시다. WordCount는 주어진 입력 셋에서 각 단어의 발생 횟수를 계산하는 간단한 응용 프로그램입니다. 위의 그림은 전체 WordCount 어플리케이션의 동작 구성도입니다. Word Count : 주어진 입력 파일에 있는 텍스트를 단어 별로 나누어 빈도수 계산하는 프로그램 전체 MapReduce 프로그램 과정을 간단히 나타내면 다음과 같습니다. Map(k1, v1) -> List(k2, v2) Reduce(k2, List(v2)) -> List(k3, v3) > Mapper 클래스의 Map함수 Map(key, value): - key :.. 2020. 6. 17.
하둡(Hadoop)이란?(1) - 하둡의 구성과 HDFS, MapReduce의 정의, 특징들 빅데이터란? A collection of data sets so large and complex that it becomes difficult to process using on-hand DB management tools or traditional data processing applications. 즉, 서버 한대로는 처리할 수 없는 규모의 데이터 기존의 소프트웨어로는 처리할 수 없는 규모의 데이터를 빅데이터라고 칭합니다. 빅데이터는 3V로 축약되는 세가지 큰 특징을 가지고 있는데요, 3V : Volume : 다량 + Velocity : 데이터 생성/ 처리 속도 + Variety : 다양성 요즘엔 여기에 Variability : 변동성 이라는 특징을 추가하여 말하기도 합니다. 빅데이터 시스템의 구성 .. 2020. 6. 14.