Pandas
Table
행과 열을 이용해 데이터를 저장하고 관리하는 자료구조(컨테이너)
행은 주로 개체, 열은 속성을 나타낸다.
pandas 설치
pip install pandas
Series
one dimension labeled array이다.
인덱스를 지정해줄 수 있다.
Series는 ndarray와 유사하다.
슬라이싱이 가능하다.
인덱스 안에 조건을 주어 조건에 충족한 인자만 반환받을 수 있다.
Seriss는 dict와 유사하다.
series[키 값]을 작성하면 value 값을 가져올 수 있음.
Series는 이름을 붙일 수 있다.
Dataframe
two dimension labeled table이다.
d = any dictionary
df = pd.DataFrame( d )
다음과 같이 Dataframe은 dictionary를 인자로 넣어주어 생성을 하면 다음과 같은 표가 나타나게 된다.
각 column의 dtype을 확인하려면
df.dtypes를 이용하면 된다.
CSV to DataFrame
CSV (Comma Seperated Value)를 DataFrame으로 변환하려면
pd.read_csv()를 이용하면 된다.
dataframe의 일부분만 관찰하기
앞부분만 관찰
df.head()
뒷부분만 관찰
df.tail()
dataframe 데이터 접근하기
df['column_name'] 또는 df.column_name으로 접근한다.
만약 키 값에 공백이 존재할 때는 앞의 방식으로만 접근이 가능해진다.
조건을 이용해 데이터를 접근하려면 어떻게 해야 할까?
df[df[key_value] > condition] 이러한 식으로 조건 구문을 dataframe의 키로 넣어준다.
행을 기준으로 dataframe 데이터 접근하기
.loc[row, col]나 .iloc[rowidx, colidx]을 이용하면 된다.
groupby
- Split : 특정한 '기준'을 바탕으로 DataFrame을 분할
- Apply : 통계함수 - sum(), mean(), median(), ... 을 적용해 각 데이터를 압축
- Combine : Apply된 결과를 바탕으로 새로운 Series를 생성 ( group_key : applied_value )
df_group = df[키값].groupby(by=df[그룹화의 조건이 될 키 값])
'AI > KDT 인공지능' 카테고리의 다른 글
[05/10] Web Application with Flask (0) | 2021.05.09 |
---|---|
[05/06] Matplotlib (0) | 2021.05.06 |
[05/04] Git이란 무엇인가? (0) | 2021.05.04 |
[05/04] Python으로 데이터 다루기 - Numpy (0) | 2021.05.04 |
[05/03] 인공지능 수학 - 추정, 검정, 엔트로피 (0) | 2021.05.03 |