Hadoop이란 무엇인가?
대용량 데이터를 분산 처리할 수 있는 자바기반의 오픈소스 프레임 워크
대용량 데이타를 처리하는 방식 중의 하나인 Hadoop은
구글에서 만든 GFS기반의 분산 시스템을 말한다.
대용량파일을 다룰 때 Hadoop을 쓰는 이유는
대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공하고
클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리
장비가 증가한다고 해도 성능은 유지
오픈소스라는 장점
등의 이유가 있다.
한마디로 하둡은 분산저장(HDFS)기술과 분산 처리기술(MapReduce)'을 통해
빠른 계산 능력 저장공간을 늘리는 방식이다.
이해를 돕자면 아래 그림과 같다.
Hadoop은 오픈소스기반이기에 예산을 줄일 수 있고 개방성이 높아 위기 대처 능력이 높다.
공개소프트웨어라는 장점과 함께 이를 다룰 수 있는 고급기술의 엔지니어가 부족한것도 사실.
피보탈은 데이터사이언티스트 양성을 위해 한국외대와 산학협력을 체결했다.
'그림작업 > 유화' 카테고리의 다른 글
Federation이 지원하는 빅데이터 전문 기술 및 지식 (0) | 2015.04.15 |
---|