데이터 분석/Hadoop

[Hadoop]1. 아파치 하둡이란?

2021. 5. 10. 23:45

빅데이터를 수집, 저장, 처리, 분석 할 수 있는 소프트웨어 프레임워크
주요 특징
- Ditributed : 수십만대의 컴퓨터에 자료 분산 저장 및 처리
- Scalable : 용량이 증대되는 대로 컴퓨터 추가
- Fault-tolerant : 하나 이상의 컴퓨터가 고장나도 시스템이 정상 동작
- Open source : 공개 소프트웨어

하나의 작업을 처리하기 위해 여러 대의 컴퓨터를 사용
더 많은 데이터를 처리하기 위해서는 더 많은 컴퓨터를 확장하여 해결
분산 처리를 위해 MPI(Message Passing Interface) 방법을 사용
- 컴퓨터 사이에 메시지를 전달하여 분산 처리를 수행함
- 하지만 복잡하여 사용하기 어려움

구글에서 저성능 서버 여러 대에 데이터를 분선 저장/처리 하는 시스템 개발함
- GFS(GoogleFile System) 라고 하는 파일 저장 관리 시스템을 개발
- MR(MapReduce)라고 하는 분산 데이터 처리 방법을 개발
하지만 Google에서 해당 기술을 Open하지 않음
Apache 에서 GFS와 MR을 참고하여 Hadoop이라고 하는 기술을 개발하여 open함

데이터 수집
- Sqoop : 정형데이터(관계형 데이터베이스등)에 있는 데이터를 가져 오는 프로그램
- Flume : 비정형데이터(로그파일 등)에 있는 데이터를 가져오는 프로그램
데이터 저장
- HDFS(Haddop Distributed File System) : 데이터를 분산하여 저장하는 파일시스템
- HBase : 컬럼기반 NoSQL 데이터베이스
데이터 처리/분석
- YARN/Map Reduce : 분산 데이터 처리
- Pig : 스크리브 언어 기반 분석 도구
- Hive : SQL기반 분석 도구
- Mahout : 기계학습 알고리즘 기반 데이터 처리
데이터 관리
- Oozie : 빅데이터 처리 과정 관리
- HCatalog : 빅데이터 메타 정보 관리
- Zoo keeper : 빅데이터 서버 시스템 관리
Hadoop ecosystem 관리
- Hue : 하둡의 프로그램들을 쉽게 실행시키는 동작하는 프로그램

PREV 1 NEXT