코드스테이츠 AI 부트캠프/ii) 기계학습

[Week 2 - Day 3] 분류모델 평가지표

94년생 스피노자 2021. 6. 16. 10:59
728x90

커피 한 모금

이번주는 분류모델을 만들고 있다.

애써 만든 분류모델은 어떻게 평가할 수 있을까.

 

기본적으로 3가지 지표가 있다.

  • 정확도(Accuracy): 분류를 올바르게 한 비율(True는 True로, False는 False로 판단한 비율)
  • 정밀도(Precision): True로 판단한 것들 중 실제로 True인 비율
  • 재현율(Recall): 실제로 True인 것들 중 True로 판단한 비율

각 평가지표는 목적하는 바가 다르다.

예시로 초기에 암을 진단하기 위해서는 재현율이 중요하다.

 

재현율이 1이 되는 가장 쉬운 방법은 아무나 암이라고 판정하는 것이다.

하지만 이럴 경우 정밀도는 떨어지게 된다.

 

밸런스있게 판단하는 모델을 위해 Receiver Operating Characteristic(ROC)이 등장한다.

위 그래프에서 y축은 재현율이고, x축은 위양성률(실제로 False인데 True로 판단)이다.

 

찍혀있는 여러점들은 수많은 임계값들에 따른 데이터를 표시한 것이다.

최적의 임계값은 재현율에서 위양성률을 뺀 값이 최대로 되는 지점이다.

 

추가적으로 Area Under the Curve(AUC)도 알아야한다.

말 그대로 곡선 아래 면적의 값을 뜻한다.

 

위 ROC 곡선 밑의 면적의 값은 0.82 정도다.

그리고 이 값이 높을수록 분류모델이 효과가 있음을 나타낸다.

 

만약 ROC 곡선이 기울기가 1인 직선이라면 AUC는 0.5가 된다.

즉 찍는 것과 다를바 없다는 뜻이다.

 

 

1. Introduction to the Confusion Matrix in Classification

 

https://www.youtube.com/watch?v=wpp3VfzgNcI 

 

 

2. Precision, Recall & F-Measure

 

https://www.youtube.com/watch?v=j-EB6RqqjGI 

 

3. ROC Curves and Area Under the Curve (AUC) Explained

 

https://youtu.be/OAl6eAyP-yo

 

모두 행복하길

-끝-

728x90