결과 범주가 두 종류인 데이터를 분류하는 것을 이진 분류라 한다.
예시로는 생존/사망, 양성/음성, 합격/불합격, 정상 거래/사기 거래 등등이 있다.
이러한 이진 분류 모델의 성능을 평가하는 여러 지표가 있는데 그 중 대표적인 것을 간단히 요약한다.
1. 양성, 음성, 참, 거짓
분류된 데이터는 실제 값과 예측이 일치하는지 여부에 따라
- 실제 양성(label = 1)인 데이터를 양성으로 분류 -> 참 양성(True Positive)
- 실제 음성(label = 0)인 데이터를 양성으로 분류 -> 거짓 양성(False Positive)
- 실제 양성인 데이터를 음성으로 분류 -> 거짓 음성(False Negative)
- 실제 음성인 데이터를 음성으로 분류 -> 참 음성(True Negative)
네 종류로 분류한다.
이를 표로 그리면 다음과 같다.
예측 음성 | 예측 양성 | |
---|---|---|
실제 음성 | 참 음성(TN) | 거짓 양성(FP) |
실제 양성 | 거짓 음성(FN) | 참 양성(TP) |
성능 지표들은 이 네가지 분류의 조합으로 계산된다.
2. 정확도 (Accuracy)
테스트 set의 데이터 중 예측 결과와 일치하는 비율
$Accuracy = \frac{TP(참\ 양성) + TN(참\ 음성)}{전체\ 데이터}$
1에 가까울수록 좋은 지표
3. 정밀도와 재현율
- 정밀도 (Precision)
양성으로 예측한 데이터 중 실제로 양성인 데이터의 비율
$Precision = \frac{TP(참\ 양성)}{TP(참\ 양성) + FP(거짓\ 양성)}$
1에 가까울수록 좋은 지표 - 재현율 (Recall)
실제 양성인 데이터 중 양성으로 예측한 데이터의 비율
$Recall = \frac{TP(참\ 양성)}{TP(참\ 양성) + FN(거짓\ 음성)}$
1에 가까울수록 좋은 지표
4. 민감도와 특이도
- 민감도 (True Positive Rate, Sensitivity)
실제 양성인 데이터 중 양성으로 예측한 데이터의 비율
$TPR = \frac{TP(참\ 양성)}{TP(참\ 양성) + FN(거짓\ 음성)}$
1에 가까울수록 좋은 지표 - 특이도 (True Negative Rate, Specificity)
실제 음성인 데이터 중 음성으로 예측한 데이터의 비율
$TNR = \frac{TN(참\ 음성)}{TN(참\ 음성) + FP(거짓\ 양성)}$
1에 가까울수록 좋은 지표
5. 1종 오류와 2종 오류
- 1종 오류 (Type I Error)
양성으로 예측한 데이터 중 실제로 음성인 데이터의 비율
$Type\ quadI\ error = \frac{FP(거짓\ 양성)}{TP(참\ 양성) + FP(거짓\ 양성)}$
0에 가까울수록 좋은 지표 - 2종 오류 (Type II Error)
음성으로 예측한 데이터 중 실제로 양성인 데이터의 비율
$Type\ II\ error = \frac{FN(거짓\ 음성)}{TN(참\ 음성) + FN(거짓\ 음성)}$
$local,minimum$
0에 가까울수록 좋은 지표
6. 서로 연관 있는 지표들
- 재현율 = 민감도
- 정밀도(실제 양성 중 양성 예측) + 1종 오류(실제 양성 중 음성 예측) = 1
7. 임곗값(threshhold)
- 임곗값은 특정 데이터를 양성으로 분류하는 기준
- 예컨대 대표적인 이진 분류 모델인 로지스틱 회귀 모델에서 회귀식의 결과값에서 해당 데이터가 양성으로 분류될 확률을 계산할 수 있다.
- 이 확률이 임곗값 이상이면 양성으로 분류하며, 일반적인 임곗값은 0.5이다.
- 데이터의 종류에 따라 임곗값은 조절할 수 있다.
- 앞서 소개한 성능 지표들은 모두 임곗값이 변함에 따라 값이 변한다. 이때 정밀도/재현율, 민감도/특이도, 1종/2종 오류는 서로 반대 방향으로 움직인다.
- 임곗값 증가 -> 더 확실하게 양성일 데이터만 양성으로 분류
-> 정밀도 증가/재현율 감소, 민감도 감소/특이도 증가, 1종 오류 감소/2종 오류 증가 - 임곗값 감소 -> 덜 확실하게 양성일 데이터도 양성으로 분류
-> 정밀도 감소/재현율 증가, 민감도 증가/특이도 감소, 1종 오류 증가/2종 오류 감소 - 즉, 임곗값만을 움직여서 반대 방향으로 움직이는 지표를 동시에 개선하기는 불가능하다.
8. F-1점수(F1-score)
- 정밀도와 재현율을 결합한 지표. 정밀도와 재현율의 조화평균
- $F1 = 2 \times \frac{precision \times recall}{precesion + recall}$
- 정밀도와 재현율이 어느 한쪽으로 치우치지 않을 때 높아짐
- 1종 오류를 줄이는게 중요하면 정밀도, 2종 오류를 줄이는게 중요하면 재현율,
둘 다 중요하면 F1 score로 평가
9. ROC-AUC
- ROC (Receiver Operating Characteristic Curve)
False Positive Rate(실제 음성인데 양성으로 분류, 1-특이도)이 변화할 때 True Positive Rate(실제 양성인데 양성으로 분류, 민감도)의 변화를 나타낸 곡선 - ROC-AUC (ROC Area Under Curve)
ROC 곡선 아래의 넓이이며 1에 가까울수록 좋은 지표
대각선은 0.5의 확률로 무작위로 분류할 때의 성능
AUC가 커지려면 FPR이 낮을 때 TPR이 충분히 높아야 함(= 특이도가 높을 때도 민감도가 높아야 함)
즉, 1에 가까울수록 좋은 지표
댓글