[05/05] 데이터 다루기 - Pandas

누런강냉이 2021. 5. 5. 19:17

2021. 5. 5. 19:17

Pandas

Table

행과 열을 이용해 데이터를 저장하고 관리하는 자료구조(컨테이너)

행은 주로 개체, 열은 속성을 나타낸다.

pandas 설치

pip install pandas

Series

one dimension labeled array이다.

인덱스를 지정해줄 수 있다.

Series는 ndarray와 유사하다.

슬라이싱이 가능하다.

인덱스 안에 조건을 주어 조건에 충족한 인자만 반환받을 수 있다.

Seriss는 dict와 유사하다.

series[키 값]을 작성하면 value 값을 가져올 수 있음.

Series는 이름을 붙일 수 있다.

Dataframe

two dimension labeled table이다.

d = any dictionary

df = pd.DataFrame( d )

다음과 같이 Dataframe은 dictionary를 인자로 넣어주어 생성을 하면 다음과 같은 표가 나타나게 된다.

각 column의 dtype을 확인하려면

df.dtypes를 이용하면 된다.

CSV to DataFrame

CSV (Comma Seperated Value)를 DataFrame으로 변환하려면

pd.read_csv()를 이용하면 된다.

dataframe의 일부분만 관찰하기

앞부분만 관찰

df.head()

뒷부분만 관찰

df.tail()

dataframe 데이터 접근하기

df['column_name'] 또는 df.column_name으로 접근한다.

만약 키 값에 공백이 존재할 때는 앞의 방식으로만 접근이 가능해진다.

조건을 이용해 데이터를 접근하려면 어떻게 해야 할까?

df[df[key_value] > condition] 이러한 식으로 조건 구문을 dataframe의 키로 넣어준다.

행을 기준으로 dataframe 데이터 접근하기

.loc[row, col]나 .iloc[rowidx, colidx]을 이용하면 된다.

groupby

Split : 특정한 '기준'을 바탕으로 DataFrame을 분할
Apply : 통계함수 - sum(), mean(), median(), ... 을 적용해 각 데이터를 압축
Combine : Apply된 결과를 바탕으로 새로운 Series를 생성 ( group_key : applied_value )

df_group = df[키값].groupby(by=df[그룹화의 조건이 될 키 값])

'AI > KDT 인공지능' 카테고리의 다른 글

[05/10] Web Application with Flask (0)	2021.05.09
[05/06] Matplotlib (0)	2021.05.06
[05/04] Git이란 무엇인가? (0)	2021.05.04
[05/04] Python으로 데이터 다루기 - Numpy (0)	2021.05.04
[05/03] 인공지능 수학 - 추정, 검정, 엔트로피 (0)	2021.05.03

누런강냉이