본문 바로가기
반응형

파이썬 (투자분석용)21

Pandas와 정규표현식 정규표현식이란? 문자열의 패턴을 표현하는 방식으로 오래되었고 가장 강력한 방식의 하나인 정규표현식(regular expression)은 문자열 방식의 데이터 구조를 해체하여 규칙에 어긋나는 데이터를 제거하거나 대체하는 데 사용되며, 경우에 따라서는 추출하는 데 사용한다. Pandas에서 쉬이 쓰이는 메소드 'pandas.Series.str.contain()': 패턴이 확인되면 True, 없으면 False를 반환 'pandas.Series.str.extract()': 소괄호'()'로 그룹화된 패턴을 반환 정규표현식에 쓰이는 META 문자들 (aka 표현 규칙) 정규표현식에 쓰이는 표현식은 스스로 공부하는 것이 첫번째 스텝일 것이며, 내용을 알고 나면 ChatGPT를 활용하는 방법이 편리할 것이다. 아래의 .. 2024. 2. 13.
Pandas 시작하기: 7 일차, 이상치와 결측치 처리 이상치와 결측치 발견 데이터 분석에서 이상치와 결측치는 데이터 곡해하거나 분석이 불가한 상태를 생성할 수 있습니다. 당연히 존재하여야 하는 값이 없음(결측)에도 이를 무시하고 통계분석을 한다던가, 데이터 후처리를 하는 경우에 분석과정이 중단되면 오히려 다행이지만 시스템에서 발견하지 못하는 오류로 진행되어 버리는 경우에는 실제와 다른 결과가 도출되는 문제가 발생합니다. 따라서, 데이터 분석 전후 이상치나 결측치가 있는지 확인하는 메소드 또한 Pandas에서 제공하고 있습니다. 물론, 데이터 구조 및 타입(정수, 실수, 문자열 등)에 대한 이해와 규칙이 뚜렷하다면 반복문으로 이를 만들어 낼 수 있지요. 결측치 탐색 메소드 활용 'isna()', 'isnull()', 'no.. 2024. 1. 31.
Pandas 시작하기: 6 일차, 데이터 정렬 및 요약 데이터 정렬 Pandas에서 데이터를 정렬하는 것은 데이터 분석의 중요한 부분입니다. 이를 통해 데이터를 더 쉽게 이해하고 분석할 수 있습니다. 열 기준 정렬 'sort_value()' 메소드를 사용하여 특정 열을 기준으로 데이터를 정렬할 수 있습니다. 오름차순 또는 내림차순 정렬을 선택할 수 있습니다. # 'Age' 열을 기준으로 오름차순 정렬 sorted_df = df.sort_values(by='Age') sorted_df_desc = df.sort_values(by='Age', ascending=False) 인덱스 기준 정렬 'sort_index()' 메소드를 사용하여 인덱스를 기준으로 데이터를 정렬할 수 있습니다. # 인덱스를 기준으로 오름차순 정렬 sorted_by_index = df.sort.. 2024. 1. 30.
Pandas 시작하기: 5 일차, selection & filtering 심화 기본 데이터 선택 데이터 분석을 시작하기 전에, 필요한 데이터를 정확하게 선택하는 것이 중요합니다. 단일 열 선택: df['column_name'] 여러 열 선택: df[['column1', 'column2', ...]] 조건에 따른 필터링 Pandas의 강력한 기능 중 하나는 조건을 기반으로 데이터를 필터링하는 것입니다. 기본 조건 필터링 # 나이가 30 이상인 데이터 선택 older_than_30 = df[df['Age'] > 30] 복합 조건 필터링 # 나이가 30 이상이면서 뉴욕에 사는 사람들 선택 older_in_ny = df[(df['Age'] > 30) & (df['City'] == 'New York')] 데이터 조작과 필터링 조건에 맞는 데이터를 선택한 후에는, 이 데이터에 대한 추가적인 .. 2024. 1. 28.
Pandas 시작하기: 4일차, 데이터 불러오기 및 탐색하기 데이터 불러오기 Pandas의 가장 강력한 기능 중 하나는 다양한 형식의 데이터를 쉽게 불러올 수 있다는 점입니다. 가장 일반적인 형식은 CSV(쉽표로 구분된 ASCII 데이터) 파일입니다. import pandas as pd # CSV 파일 불러오기 df = pd.read_csv('path/to/your/file.csv') # 처음 몇 줄 확인 print(df.head()) Pandas는 CSV 외에도 Excel, JSON, SQL 데이터베이스 및 다양한 파일 형식을 지원합니다. 데이터 탐색 메소드 데이터를 불러온 후, 기본적인 탐색을 통해 데이터의 개요를 파악할 수 있습니다. 'head()', 'tail()': 데이터프레임의 처음과 끝 부분을 보여줍니다. 'info()': 열 데이터 타입, 누락된 값.. 2024. 1. 25.
Pandas 시작하기: 3일차, DataFrame의 깊이 있는 이해 DataFrame이란? DataFrame은 Pandas 라이브러리의 핵심 구성 요소 중 하나로, 2차원의 라벨이 붙은 데이터 구조입니다. 엑셀 스프레드시트나 SQL 테이블과 유사하며, 다양한 데이터 타입을 포함할 수 있습니다. DataFrame 생성하기 DataFrame은 여러방법으로 생성할 수 있으나, 가장 흔한 방법은 딕셔너리를 활용하는 것입니다. import pandas as pd # 딕셔너리를 사용하여 DataFrame 생성 data = { 'Name': ['John', 'Anna', 'Peter', 'Linda'], 'Age': [28, 34, 29, 32], 'City': ['New Yo.. 2024. 1. 24.
Pandas 시작하기: 2일차, Series 사용해보기 Pandas Series란? Pandas Series는 일련의 데이터를 1차원 배열로 나타내는 객체입니다. DataFrame의 단일 열과 유사하지만, Series 자체로도 다양한 데이터 조작과 분석이 가능합니다. Series 생성하기 Pandas Series는 리스트, 배열 외 파이썬의 기본 자료형 등 다양한 데이터 소스로부터 생성할 수 있습니다. import pandas as pd # 리스트를 이용한 Series 생성 data = [1, 3, 5, 7, 9] series = pd.Series(data) print(series) ''' 출력 0 1 1 3 2 5 3 7 4 9 dtype: int64 ''' 이 코드는 간단한 숫자 리스트를 이용하여 Series를 .. 2024. 1. 23.
Pandas 시작하기: 1일차, 설치하고 사용해보기 Pandas란 무엇인가? Pandas는 Python 프로그래밍 언어를 위한 고성능 데이터 분석 및 조작 라이브러리 입니다. 데이터 과학자, 분석가 및 엔지니어들이 데이터를 쉽게 조작하고 분석할 수 있도록 설계되었습니다. Pandas는 크게 두가지 데이터 구조인 'Series'와 'DataFrame'을 제공합니다. Pandas 설치 Pandas를 사용하기 위해서는 먼저 설치가 필요합니다. 가장 간단한 설치 방법은 pip를 사용하는 것입니다. python과 pip의 설치 방법이 궁금하다면 링크를 따라갑니다. pip install pandas Pandas 사용을 위한 패키지 불러오기 Pandas를 사용하기 위해 Python 코드 상단에 import 구문을 추가합니다. import pandas as pd 첫 번.. 2024. 1. 22.
[python] Stochastic 오실레이터 그리기 스토캐스틱(Stochastic) 말고도 다양한 오실레이터(oscillator)가 있다. 오실레이터가 익숙한 사람들은 보통 공대생일 텐데, 오실레이터란 표현을 주가 분석에서 쓰는 이유는 공대의 그것과 동일한 의미를 가지기 때문이다. 오실레이터란 반복적이고 주기적인 신호를 생성하는“진동자” 주가는 투자의 심리적 요인으로 가만히 있질 못하고 오르내리는 성향이 있다. 그 성질이 크기도 하고 작은 경우도 있지만, 많은 투자자들은 소위 “발라먹는다”라며 올랐을 때 팔고 내려왔을 때 사서 이익을 극대화하기 위해 주가의 변동을 측정하려는 시도를 했다. 달리말하자면, 투자가 몰린 과매수 상태와 과매도 상태를 확인하기 위한 시도로 오실레이터가 등장하였다. Stochastic Ocillator란 그 중 가장 빨리 태어난 측.. 2022. 3. 11.
[python] 네이버금융 주요 재무정보 스크래핑 사경인 회계사는 "재무제표를 모르면 주식투자 절대로 하지마라" 라는 제목으로 책을 집필한 바 있다. 사 회계사의 의도는 책을 찬찬히 읽어본 이후에야 알 수 있겠지만, 핵심적인 사항은 주식투자 대상을 선정함에 있어 해당 기업의 사업모델과 미래 가치를 평가할 때 재무정보를 빼놓지 않아야 한다는 것이다. 1. 재무정보를 보기 쉬운 방법 포털사이트는 재무정보를 얻기 가장 쉬운 곳 중 하나이다. 에프앤가이드와 같은 재무정보 제공회사를 통해 비용을 지불하고 정제된 데이터를 무료로 제공하고 있기 때문이다. 우리나라의 대표적인 포털사이트인 네이버와 다음(Daum)은 FnGuide를 통해 같은 수준의 정보를 제공하고 있다. 네이버나 다음과 같은 포털사이트가 접근하기 가장 편리한 사이트이겠지만, 이 두 사이트의 원문을 보.. 2022. 2. 26.
반응형