본문 바로가기
데이터 분석

이진 분류(Binary Classification) 모델 주요 평가 지표

by 로널드 피셔 2022. 11. 17.

결과 범주가 두 종류인 데이터를 분류하는 것을 이진 분류라 한다.

예시로는 생존/사망, 양성/음성, 합격/불합격, 정상 거래/사기 거래 등등이 있다.

이러한 이진 분류 모델의 성능을 평가하는 여러 지표가 있는데 그 중 대표적인 것을 간단히 요약한다.

1. 양성, 음성, 참, 거짓

분류된 데이터는 실제 값과 예측이 일치하는지 여부에 따라

  • 실제 양성(label = 1)인 데이터를 양성으로 분류 -> 참 양성(True Positive)
  • 실제 음성(label = 0)인 데이터를 양성으로 분류 -> 거짓 양성(False Positive)
  • 실제 양성인 데이터를 음성으로 분류 -> 거짓 음성(False Negative)
  • 실제 음성인 데이터를 음성으로 분류 -> 참 음성(True Negative)

네 종류로 분류한다.
이를 표로 그리면 다음과 같다.

  예측 음성 예측 양성
실제 음성 참 음성(TN) 거짓 양성(FP)
실제 양성 거짓 음성(FN) 참 양성(TP)

성능 지표들은 이 네가지 분류의 조합으로 계산된다.

2. 정확도 (Accuracy)

테스트 set의 데이터 중 예측 결과와 일치하는 비율
$Accuracy = \frac{TP(참\ 양성) + TN(참\ 음성)}{전체\ 데이터}$
1에 가까울수록 좋은 지표

3. 정밀도와 재현율

  • 정밀도 (Precision)
    양성으로 예측한 데이터 중 실제로 양성인 데이터의 비율
    $Precision = \frac{TP(참\ 양성)}{TP(참\ 양성) + FP(거짓\ 양성)}$
    1에 가까울수록 좋은 지표
  • 재현율 (Recall)
    실제 양성인 데이터 중 양성으로 예측한 데이터의 비율
    $Recall = \frac{TP(참\ 양성)}{TP(참\ 양성) + FN(거짓\ 음성)}$
    1에 가까울수록 좋은 지표

4. 민감도와 특이도

  • 민감도 (True Positive Rate, Sensitivity)
    실제 양성인 데이터 중 양성으로 예측한 데이터의 비율
    $TPR = \frac{TP(참\ 양성)}{TP(참\ 양성) + FN(거짓\ 음성)}$
    1에 가까울수록 좋은 지표
  • 특이도 (True Negative Rate, Specificity)
    실제 음성인 데이터 중 음성으로 예측한 데이터의 비율
    $TNR = \frac{TN(참\ 음성)}{TN(참\ 음성) + FP(거짓\ 양성)}$
    1에 가까울수록 좋은 지표

5. 1종 오류와 2종 오류

  • 1종 오류 (Type I Error)
    양성으로 예측한 데이터 중 실제로 음성인 데이터의 비율
    $Type\ quadI\ error = \frac{FP(거짓\ 양성)}{TP(참\ 양성) + FP(거짓\ 양성)}$
    0에 가까울수록 좋은 지표
  • 2종 오류 (Type II Error)
    음성으로 예측한 데이터 중 실제로 양성인 데이터의 비율
    $Type\ II\ error = \frac{FN(거짓\ 음성)}{TN(참\ 음성) + FN(거짓\ 음성)}$
    $local,minimum$
    0에 가까울수록 좋은 지표

6. 서로 연관 있는 지표들

  • 재현율 = 민감도
  • 정밀도(실제 양성 중 양성 예측) + 1종 오류(실제 양성 중 음성 예측) = 1

7. 임곗값(threshhold)

  • 임곗값은 특정 데이터를 양성으로 분류하는 기준
  • 예컨대 대표적인 이진 분류 모델인 로지스틱 회귀 모델에서 회귀식의 결과값에서 해당 데이터가 양성으로 분류될 확률을 계산할 수 있다.
  • 이 확률이 임곗값 이상이면 양성으로 분류하며, 일반적인 임곗값은 0.5이다.
  • 데이터의 종류에 따라 임곗값은 조절할 수 있다.
  • 앞서 소개한 성능 지표들은 모두 임곗값이 변함에 따라 값이 변한다. 이때 정밀도/재현율, 민감도/특이도, 1종/2종 오류는 서로 반대 방향으로 움직인다.
  • 임곗값 증가 -> 더 확실하게 양성일 데이터만 양성으로 분류
    -> 정밀도 증가/재현율 감소, 민감도 감소/특이도 증가, 1종 오류 감소/2종 오류 증가
  • 임곗값 감소 -> 덜 확실하게 양성일 데이터도 양성으로 분류
    -> 정밀도 감소/재현율 증가, 민감도 증가/특이도 감소, 1종 오류 증가/2종 오류 감소
  • 즉, 임곗값만을 움직여서 반대 방향으로 움직이는 지표를 동시에 개선하기는 불가능하다.

8. F-1점수(F1-score)

  • 정밀도와 재현율을 결합한 지표. 정밀도와 재현율의 조화평균
  • $F1 = 2 \times \frac{precision \times recall}{precesion + recall}$
  • 정밀도와 재현율이 어느 한쪽으로 치우치지 않을 때 높아짐
  • 1종 오류를 줄이는게 중요하면 정밀도, 2종 오류를 줄이는게 중요하면 재현율,
    둘 다 중요하면 F1 score로 평가

9. ROC-AUC

  • ROC (Receiver Operating Characteristic Curve)
    False Positive Rate(실제 음성인데 양성으로 분류, 1-특이도)이 변화할 때 True Positive Rate(실제 양성인데 양성으로 분류, 민감도)의 변화를 나타낸 곡선
  • ROC-AUC (ROC Area Under Curve)
    ROC 곡선 아래의 넓이이며 1에 가까울수록 좋은 지표
    ROC
    대각선은 0.5의 확률로 무작위로 분류할 때의 성능
    AUC가 커지려면 FPR이 낮을 때 TPR이 충분히 높아야 함(= 특이도가 높을 때도 민감도가 높아야 함)
    즉, 1에 가까울수록 좋은 지표

댓글