EDA ( Exploratory Data Analysis )
EDA - Heart Attack Analysis
데이터 다운로드 : www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/code
Heart Attack Analysis & Prediction Dataset
A dataset for heart attack classification
www.kaggle.com
1. 분석의 목적과 변수 확인
목적 : 심장마비 가능성이 높은 사람들의 특징이 무엇일까?
변수
- age
- 나이
- sex
- 성별
- cp
- 가슴 통증 종류
- trtpbs
- 혈압
- chol
- BMI 센서를 통해 가져온 콜레스테롤
- fbs
- 공복 혈당
- restecg
- 휴식 심전도 결과
- thalachh
- 최대 심박수 달성
- exng
- 운동으로 인한 협심증
- oldpeak
- 이전 피크
- output
- 심장마비 가능성 적으면 0, 많으면 1
2. 데이터 전체적으로 살펴보기
이번 데이터는 운 좋게도 결측치가 하나도 없음을 알 수 있다. 결측치에 대한 처리 부분은 생각하지 않아도 되겠다.ㅎㅎ
3. 데이터의 개별 속성 파악하기
(1) 심장 마비 가능성이 높은 사람 수 확인
(2) 가슴 통증 유형에 따른 심장마비 가능성이 높은 인원 파악
=> 비정형 협심증, 비 협심증, 무증상 환자는 심장마비가 올 가능성이 더 높다는 것을 알 수 있다.
(3) 나이에 따른 심장 마비 가능성 환자 확인
=> 오히려 40대-50대 비교적 젊은 환자들이 심장 마비 가능성이 더 높음을 확인할 수 있다.
(4) 성별에 따른 심장 마비 가능성 환자 확인
=> 남성이 여성에 비해 심장 마비 가능성이 더 높은 것을 확인할 수 있었다.
(5) 최대 심박수에 따른 심장 마비 가능성 환자 확인
=> 최대 심박수가 150을 초과하는 순간부터 심장 마비 가능성이 더 높아지는 것을 확인할 수 있다.
(6) 콜레스테롤에 따른 심장 마비 가능성 환자 확인
=> 의외로 콜레스테롤은 심장 마비 가능성에 큰 영향을 끼치지 않는다는 것을 확인할 수 있었다.
4. 데이터 복합 요소에 대해 살펴보기
(1) 나이 + 콜레스테롤에 따른 심장 마비 가능성 확인
=> 나이와 콜레스테롤에 연관이 없고, 심장 마비 가능성 또한 연관이 없음을 알 수 있었다....
(2) 나이 + 성별에 따른 심장 마비 가능성 확인
=> 남성과 여성 둘 다 고령보다는 낮은 연령에서 더 심장 마비 가능성이 높은 환자가 많은 것으로 나타났다.
이외에 다른 좋은 가설이나 내용 중 틀린 부분이 있다면 언제든지 댓글 달아주셔서 피드백주시면 감사하겠습니다.
'AI > KDT 인공지능' 카테고리의 다른 글
[05/18] Django로 동적 웹페이지 만들기 (0) | 2021.05.18 |
---|---|
[05/17] Web Application with Django (0) | 2021.05.17 |
[05/12] 데이터 씹고 뜯고 맛보고 즐기기 - EDA (0) | 2021.05.11 |
[05/11] AWS를 활용한 인공지능 모델 배포 (0) | 2021.05.11 |
[05/10] Web Application with Flask (0) | 2021.05.09 |