본문 바로가기
파이썬 (투자분석용)/Pandas 및 python 일반

Pandas 시작하기: 5 일차, selection & filtering 심화

by amAToRoi 2024. 1. 28.
반응형

기본 데이터 선택

데이터 분석을 시작하기 전에, 필요한 데이터를 정확하게 선택하는 것이 중요합니다.

  1. 단일 열 선택: df['column_name']
  2. 여러 열 선택: df[['column1', 'column2', ...]]

조건에 따른 필터링

Pandas의 강력한 기능 중 하나는 조건을 기반으로 데이터를 필터링하는 것입니다.

기본 조건 필터링

# 나이가 30 이상인 데이터 선택
older_than_30 = df[df['Age'] > 30]

복합 조건 필터링

# 나이가 30 이상이면서 뉴욕에 사는 사람들 선택
older_in_ny = df[(df['Age'] > 30) & (df['City'] == 'New York')]

데이터 조작과 필터링

조건에 맞는 데이터를 선택한 후에는, 이 데이터에 대한 추가적인 조작이 가능합니다.

조건부 값 변경

# 나이가 30 이상인 사람들의 상태를 'Senior'로 변경  
df.loc[df['Age'] > 30, 'Status'] = 'Senior'

새로운 열 추가

# 'Income' 열 추가  
df['Income'] = df['Age'] * 1000

팁과 모범 사례

  1. 명확한 조건 사용: 데이터 필터링 시 명확한 조건을 사용하여 오류를 줄입니다.
  2. 데이터 복사: 원본 데이터를 유지하고자 할 때는 .copy() 를 사용하여 데이터의 복사본을 만듭니다.
  3. 코드 주석: 복잡한 필터링 조건을 사용할 때는 코드에 주석을 추가하여 나중에 이해하기 쉽게 합니다.

결론

4일차와 5일차는 기본적으로 동일한 내용이다. 반복을 해야할 정도로 중요한 파트 라는 의미이며, 동시에, 조금씩이나마 다른 여러 사용법 중에 자신의 것을 찾아야 하는 파트이다. 직접 해보지 않고 정하는 건 불가능하다.

 

해보자. 여기 없는 것도 '다른 방법이 있을텐데...' 라는 생각이 든다면, 찾아서 해봐야 한다.

 

반응형

댓글