EDA ( Exploratory Data Analysis )

 

EDA - Heart Attack Analysis

 

데이터 다운로드 : www.kaggle.com/rashikrahmanpritom/heart-attack-analysis-prediction-dataset/code

 

Heart Attack Analysis & Prediction Dataset

A dataset for heart attack classification

www.kaggle.com

1. 분석의 목적과 변수 확인

 

목적 : 심장마비 가능성이 높은 사람들의 특징이 무엇일까?

 

변수

 

  • age
    • 나이
  • sex
    • 성별
  • cp
    • 가슴 통증 종류
  • trtpbs
    • 혈압
  • chol
    • BMI 센서를 통해 가져온 콜레스테롤
  • fbs
    • 공복 혈당
  • restecg
    • 휴식 심전도 결과
  • thalachh
    • 최대 심박수 달성
  • exng
    • 운동으로 인한 협심증
  • oldpeak
    • 이전 피크
  • output
    • 심장마비 가능성 적으면 0, 많으면 1

 

 

2. 데이터 전체적으로 살펴보기 

 

 

 

이번 데이터는 운 좋게도 결측치가 하나도 없음을 알 수 있다. 결측치에 대한 처리 부분은 생각하지 않아도 되겠다.ㅎㅎ

 

3. 데이터의 개별 속성 파악하기

 

(1) 심장 마비 가능성이 높은 사람 수 확인

 


(2) 가슴 통증 유형에 따른 심장마비 가능성이 높은 인원 파악

 

 

 

=> 비정형 협심증, 비 협심증, 무증상 환자는 심장마비가 올 가능성이 더 높다는 것을 알 수 있다.


(3) 나이에 따른 심장 마비 가능성 환자 확인

 

 

=> 오히려 40대-50대 비교적 젊은 환자들이 심장 마비 가능성이 더 높음을 확인할 수 있다.


(4) 성별에 따른 심장 마비 가능성 환자 확인

 

 

=> 남성이 여성에 비해 심장 마비 가능성이 더 높은 것을 확인할 수 있었다.

 

(5) 최대 심박수에 따른 심장 마비 가능성 환자 확인

 

 

=> 최대 심박수가 150을 초과하는 순간부터 심장 마비 가능성이 더 높아지는 것을 확인할 수 있다.

 

(6) 콜레스테롤에 따른 심장 마비 가능성 환자 확인

 


=> 의외로 콜레스테롤은 심장 마비 가능성에 큰 영향을 끼치지 않는다는 것을 확인할 수 있었다. 

 

4. 데이터 복합 요소에 대해 살펴보기

 

(1) 나이 + 콜레스테롤에 따른 심장 마비 가능성 확인

 


 => 나이와 콜레스테롤에 연관이 없고, 심장 마비 가능성 또한 연관이 없음을 알 수 있었다....

 

(2) 나이 + 성별에 따른 심장 마비 가능성 확인

 

 

=> 남성과 여성 둘 다 고령보다는 낮은 연령에서 더 심장 마비 가능성이 높은 환자가 많은 것으로 나타났다.

 

 

이외에 다른 좋은 가설이나 내용 중 틀린 부분이 있다면 언제든지 댓글 달아주셔서 피드백주시면 감사하겠습니다.

+ Recent posts