본문 바로가기
파이썬 (투자분석용)/Pandas 및 python 일반

Pandas 시작하기: 1일차, 설치하고 사용해보기

by amAToRoi 2024. 1. 22.
반응형

Pandas란 무엇인가?

Pandas는 Python 프로그래밍 언어를 위한 고성능 데이터 분석 및 조작 라이브러리 입니다. 데이터 과학자, 분석가 및 엔지니어들이 데이터를 쉽게 조작하고 분석할 수 있도록 설계되었습니다. Pandas는 크게 두가지 데이터 구조인 'Series'와 'DataFrame'을 제공합니다.

Pandas 설치

Pandas를 사용하기 위해서는 먼저 설치가 필요합니다. 가장 간단한 설치 방법은 pip를 사용하는 것입니다. python과 pip의 설치 방법이 궁금하다면 링크를 따라갑니다. 

pip install pandas

Pandas 사용을 위한 패키지 불러오기 

Pandas를 사용하기 위해 Python 코드 상단에 import 구문을 추가합니다.

import pandas as pd

첫 번째 Pandas 객체: DataFrame

DataFrame은 Pandas에서 가장 많이 사용되는 객체 중 하나입니다. 이는 엑셀 스프레드시트와 유사하며, 데이터를 행과 열로 구성된 2차원 형태로 쉽게 조작할 수 있습니다.

DataFrame을 생성하는 기본적인 방법은 Python의 딕셔너리를 사용하는 것입니다. 아래의 코드는 이름, 나이, 도시를 열로 가지는 간단한 DataFrame을 생성합니다.

#딕셔너리는 {key:value}의 형태로 이루어져있고,
data = {
    'Name': ['John', 'Anna', 'Peter', 'Linda'],
    'Age': [28, 34, 29, 32],
    'City': ['New York', 'Paris', 'Berlin', 'London']
}
#pandas에서는 딕셔너리의 key를 컬럼의 명칭으로 받고 value(리스트 내 각 객체)가 각 행의 값이 됩니다.
df = pd.DataFrame(data)

데이터 탐색 

DataFrame을 생성한 후에는 'head()' 메소드를 사용하여 데이터의 첫 몇 줄을 빠르게 확인할 수 있습니다. 기본적으로 처음 5 행을 출력합니다. 'head()' 메소드 없이 수많은 행을 가진 DataFrame 전체를 출력하여도 처음과 끝의 몇 줄을 출력합니다.

print(df.head())

''' 출력 예시
    Name  Age      City
0   John   28  New York
1   Anna   34     Paris
2  Peter   29    Berlin
3  Linda   32    London
'''

결론

지금까지 Pandas의 기초를 다루었습니다. 다음부터는 Pandas를 사용하여 데이터를 효율적으로 처리하고 분석하는 방법을 포스팅하려 합니다. 

반응형

댓글