반응형

안녕하세요. PSYda입니다.
오늘은 Pandas가 무엇인지 알아보겠습니다.

1. Pandas란?

Pandas의 공식 Github에서 설명하는 Pandas는 아래와 같습니다.

 

"관계형" 또는 "레이블이 된" 데이터로 쉽고 직관적으로 작업할 수 있도록 설계되었고 빠르고, 유연한 데이터 구조를 제공하는 Python 패키지

 

관계형, 레이블이 된 데이터라는 말은 엑셀의 데이터나, DBMS의 관계형 테이블 형태와 같은 표형태의 데이터로 이해 할 수 있습니다. 아무튼 데이터를 쉽게 다룰 수 있고, 분석을 용이하게 해주는 파이썬 라이브러리라고 이해 할 수 있습니다.

2. Pandas로 할 수 있는 것은?

구체적으로 Pandas로 할 수 있는 것들은 아래와 같습니다.

  • Python 자료구조와의 호환(List ,Tuple, Dict, NumpyArray 등)
  • 큰 데이터의 빠른 Indexing, Slicing, Sorting 하는 기능
  • 두 데이터 간의 Join(행,열 방향) 기능
  • 데이터의 피봇팅 및 그룹핑
  • 데이터의 통계 및 시각화 기능
  • 외부 데이터를 입력 받아 Pandas 자료구조로 저장 및 출력(CSV, 구분자가 있는 txt, 엑셀데이터, SQL database, XML 등)

3. Pandas 사용하기

Pandas는 파이썬 라이브러리이기 때문에 별도의 설치가 필요한데, Anaconda라는 패키지를 사용하면, Pandas가 기본으로 설치되어 있기 때문에 Anaconda를 이용하는 것을 권장합니다.

Anaconda는 수학, 과학, 데이터 분석 분야에서 사용하는 Python 패키지를 한 번에 설치 할 수 있게 해줍니다. 또한 Jupyter notebook과 같은 IDE 개발 도구도 함께 설치 할 수 있습니다.

Anaconda 공식 홈페이지에서 원클릭으로 쉽게 설치 할 수 있습니다.

4. 포스팅 목자

  1. Pandas의 자료구조-Series
  2. Pandas의 자료구조-DataFrame
  3. 여러 DataFrame 연결하기
  4. Pandas의 파일 입출력
  5. Pandas DataFrame 산술 연산
  6. Pandas DataFrame 통계
  7. Pandas DataFrmae의 sort,rank 함수
  8. Series와 DataFrame에 함수 적용하기
  9. DataFrame의 집계(그룹핑) 함수

다음의 포스팅부터 Jupyter notebook을 사용하여 직접 Pandas를 실습할 예정입니다.
Pandas에 대한 추가적인 정보가 필요할 경우 공식 문서를 참고해주세요.

반응형

+ Recent posts