반응형
반응형

1. 아파치 하둡이란?

  • 빅데이터를 수집, 저장, 처리, 분석 할 수 있는 소프트웨어 프레임워크
  • 주요 특징
    • Ditributed : 수십만대의 컴퓨터에 자료 분산 저장 및 처리
    • Scalable : 용량이 증대되는 대로 컴퓨터 추가
    • Fault-tolerant : 하나 이상의 컴퓨터가 고장나도 시스템이 정상 동작
    • Open source : 공개 소프트웨어

2. hadoop을 왜 쓰는가?

  • 데이터 크기가 커져 가면서, 저장과 처리를 어떻게 할지에 대해 고민을 하게됨

2.1 전통적인 고성능 서버 방식의 한계

  • 더 많은 데이터를 처리하기 위해서는 더 빠른 Scale-up을 수행
    • scale-up : processor와 memory를 확장하여 해결
  • 하지만, 지속적으로 향상시키는데에는 한계가 존재함

2.2 분산 처리 시스템 방식 도입-1(MPI)

  • 하나의 작업을 처리하기 위해 여러 대의 컴퓨터를 사용
  • 더 많은 데이터를 처리하기 위해서는 더 많은 컴퓨터를 확장하여 해결
  • 분산 처리를 위해 MPI(Message Passing Interface) 방법을 사용
    • 컴퓨터 사이에 메시지를 전달하여 분산 처리를 수행함
    • 하지만 복잡하여 사용하기 어려움

2.3 분산 처리 시스템 방식 도입-2(GFS+MR , Haddop)

  • 구글에서 저성능 서버 여러 대에 데이터를 분선 저장/처리 하는 시스템 개발함
    • GFS(GoogleFile System) 라고 하는 파일 저장 관리 시스템을 개발
    • MR(MapReduce)라고 하는 분산 데이터 처리 방법을 개발
  • 하지만 Google에서 해당 기술을 Open하지 않음
  • Apache 에서 GFS와 MR을 참고하여 Hadoop이라고 하는 기술을 개발하여 open함

3. hadoop ecosystem

  • 데이터 수집
    • Sqoop : 정형데이터(관계형 데이터베이스등)에 있는 데이터를 가져 오는 프로그램
    • Flume : 비정형데이터(로그파일 등)에 있는 데이터를 가져오는 프로그램
  • 데이터 저장
    • HDFS(Haddop Distributed File System) : 데이터를 분산하여 저장하는 파일시스템
    • HBase : 컬럼기반 NoSQL 데이터베이스
  • 데이터 처리/분석
    • YARN/Map Reduce : 분산 데이터 처리
    • Pig : 스크리브 언어 기반 분석 도구
    • Hive : SQL기반 분석 도구
    • Mahout : 기계학습 알고리즘 기반 데이터 처리
  • 데이터 관리
    • Oozie : 빅데이터 처리 과정 관리
    • HCatalog : 빅데이터 메타 정보 관리
    • Zoo keeper : 빅데이터 서버 시스템 관리
  • Hadoop ecosystem 관리
    • Hue : 하둡의 프로그램들을 쉽게 실행시키는 동작하는 프로그램

참고

반응형

+ Recent posts

반응형