본문 바로가기
반응형

기초3

Pandas 시작하기: 7 일차, 이상치와 결측치 처리 이상치와 결측치 발견 데이터 분석에서 이상치와 결측치는 데이터 곡해하거나 분석이 불가한 상태를 생성할 수 있습니다. 당연히 존재하여야 하는 값이 없음(결측)에도 이를 무시하고 통계분석을 한다던가, 데이터 후처리를 하는 경우에 분석과정이 중단되면 오히려 다행이지만 시스템에서 발견하지 못하는 오류로 진행되어 버리는 경우에는 실제와 다른 결과가 도출되는 문제가 발생합니다. 따라서, 데이터 분석 전후 이상치나 결측치가 있는지 확인하는 메소드 또한 Pandas에서 제공하고 있습니다. 물론, 데이터 구조 및 타입(정수, 실수, 문자열 등)에 대한 이해와 규칙이 뚜렷하다면 반복문으로 이를 만들어 낼 수 있지요. 결측치 탐색 메소드 활용 'isna()', 'isnull()', 'no.. 2024. 1. 31.
Pandas 시작하기: 5 일차, selection & filtering 심화 기본 데이터 선택 데이터 분석을 시작하기 전에, 필요한 데이터를 정확하게 선택하는 것이 중요합니다. 단일 열 선택: df['column_name'] 여러 열 선택: df[['column1', 'column2', ...]] 조건에 따른 필터링 Pandas의 강력한 기능 중 하나는 조건을 기반으로 데이터를 필터링하는 것입니다. 기본 조건 필터링 # 나이가 30 이상인 데이터 선택 older_than_30 = df[df['Age'] > 30] 복합 조건 필터링 # 나이가 30 이상이면서 뉴욕에 사는 사람들 선택 older_in_ny = df[(df['Age'] > 30) & (df['City'] == 'New York')] 데이터 조작과 필터링 조건에 맞는 데이터를 선택한 후에는, 이 데이터에 대한 추가적인 .. 2024. 1. 28.
Pandas 시작하기: 1일차, 설치하고 사용해보기 Pandas란 무엇인가? Pandas는 Python 프로그래밍 언어를 위한 고성능 데이터 분석 및 조작 라이브러리 입니다. 데이터 과학자, 분석가 및 엔지니어들이 데이터를 쉽게 조작하고 분석할 수 있도록 설계되었습니다. Pandas는 크게 두가지 데이터 구조인 'Series'와 'DataFrame'을 제공합니다. Pandas 설치 Pandas를 사용하기 위해서는 먼저 설치가 필요합니다. 가장 간단한 설치 방법은 pip를 사용하는 것입니다. python과 pip의 설치 방법이 궁금하다면 링크를 따라갑니다. pip install pandas Pandas 사용을 위한 패키지 불러오기 Pandas를 사용하기 위해 Python 코드 상단에 import 구문을 추가합니다. import pandas as pd 첫 번.. 2024. 1. 22.
반응형