Pandas

 

Table

 

행과 열을 이용해 데이터를 저장하고 관리하는 자료구조(컨테이너)

행은 주로 개체, 열은 속성을 나타낸다.

 

pandas 설치

 

pip install pandas


Series

 

one dimension labeled array이다.

인덱스를 지정해줄 수 있다.

 

Series는 ndarray와 유사하다.

 

슬라이싱이 가능하다.

인덱스 안에 조건을 주어 조건에 충족한 인자만 반환받을 수 있다.

 

Seriss는 dict와 유사하다.

 

series[키 값]을 작성하면 value 값을 가져올 수 있음.

 

Series는 이름을 붙일 수 있다.


Dataframe

 

two dimension labeled table이다.

 

d = any dictionary

df = pd.DataFrame( d ) 

 

다음과 같이 Dataframe은 dictionary를 인자로 넣어주어 생성을 하면 다음과 같은 표가 나타나게 된다.

 

 

각 column의 dtype을 확인하려면

 

df.dtypes를 이용하면 된다.

 


CSV to DataFrame

 

CSV (Comma Seperated Value)를 DataFrame으로 변환하려면

 

pd.read_csv()를 이용하면 된다.

 


dataframe의 일부분만 관찰하기

 

앞부분만 관찰

 

df.head()

 

뒷부분만 관찰

 

df.tail()


dataframe 데이터 접근하기

 

df['column_name'] 또는 df.column_name으로 접근한다.

 

만약 키 값에 공백이 존재할 때는 앞의 방식으로만 접근이 가능해진다.

 

조건을 이용해 데이터를 접근하려면 어떻게 해야 할까?

 

df[df[key_value] > condition] 이러한 식으로 조건 구문을 dataframe의 키로 넣어준다.

 


행을 기준으로 dataframe 데이터 접근하기

 

.loc[row, col]나 .iloc[rowidx, colidx]을 이용하면 된다.

 


groupby

 

  • Split : 특정한 '기준'을 바탕으로 DataFrame을 분할
  • Apply : 통계함수 - sum(), mean(), median(), ... 을 적용해 각 데이터를 압축
  • Combine : Apply된 결과를 바탕으로 새로운 Series를 생성 ( group_key : applied_value )

 

df_group = df[키값].groupby(by=df[그룹화의 조건이 될 키 값])

+ Recent posts