본문 바로가기
파이썬 (투자분석용)/Pandas 및 python 일반

Pandas 시작하기: 6 일차, 데이터 정렬 및 요약

by amAToRoi 2024. 1. 30.
반응형

데이터 정렬

Pandas에서 데이터를 정렬하는 것은 데이터 분석의 중요한 부분입니다. 이를 통해 데이터를 더 쉽게 이해하고 분석할 수 있습니다.

열 기준 정렬

  • 'sort_value()' 메소드를 사용하여 특정 열을 기준으로 데이터를 정렬할 수 있습니다.
  • 오름차순 또는 내림차순 정렬을 선택할 수 있습니다.
# 'Age' 열을 기준으로 오름차순 정렬 sorted_df = df.sort_values(by='Age')
sorted_df_desc = df.sort_values(by='Age', ascending=False)

인덱스 기준 정렬

  • 'sort_index()' 메소드를 사용하여 인덱스를 기준으로 데이터를 정렬할 수 있습니다.
# 인덱스를 기준으로 오름차순 정렬
sorted_by_index = df.sort_index()

데이터 요약

Pandas의 그룹화 기능은 데이터를 요약하고 분석하는 데 매우 유용합니다.

그룹화 및 요약

  • 'groupby()' 메소드를 사용하여 특정 열을 기준으로 데이터를 그룹화할 수 있습니다.
  • 그룹화된 데이터에 대해 다양한 집계함수를 적용할 수 있습니다.
# 'City'를 기준으로 그룹화하고, 각 그룹의 평균 나이를 계산
grouped = df.groupby('City')  
average_age = grouped['Age'].mean()

팁 및 모범 사례

  • 데이터정렬: 데이터를 정렬하면 패턴과 이상치를 더 쉽게 발견할 수 있습니다.
  • 집계함수: 'mean()', 'sum()', 'count()' 등의 집계함수를 사용하여 그룹화된 데이터를 요약합니다.
  • 여러 열로 그룹화: 여러 열을 기준으로 데이터를 그룹화하여 더 복잡한 데이터 분석을 수행할 수 있습니다.

결론

데이터 정렬 및 요약은 데이터 분석을 하기에 앞서 결측치를 포함한 이상치를 확인하기 위한 방법의 하나입니다. 본인이 사용하기에 가장 익숙한 방법(엑셀 등)으로 이상치를 시각적으로 확인하는 방법을 추천합니다. 물론, 프로그래밍에 더하여 이를 보완하는 방법은 매우 다양할 수 밖에 없습니다. 데이터 입력 단계에서 '규칙' 을 정해서 데이터 완결성을 강화하는 방법도 있으며, 혹자는 혼합데이터를 Pandas로 정제하려는 시도를 할 수 있습니다.

Pandas의 강력한 기능은 엑셀의 '배열함수' 와 유사하게 동작하기에 사용법은 익히는 만큼 속도감 있는 작업을 가능케 합니다.

단, 배열함수의 동작 원리는 내부 반복문을 도는 구조임을 고려하면, 버전 별로 조금씩 달라지는 내장 메소드를 활용하는 방법 보다는 여기서 소개하지는 않았지만, Pandas의 'iterrows()' 와 같은 메소드와 파이썬 프로그래밍의 기본 반복문을 조합하는 방식을 추천합니다.

7 일차에서는 결측치 관리에 관한 기본방법을 공부하겠습니다.

반응형

댓글