입문자를 위한 머신러닝 - 오차행렬
Page content
용어 정리
- 영어로는
confusion matrix
로 불리우지만, 번역하면서 다양한 단어가 등장하고 있다.오차행렬
,혼동행렬
- 제목은
오차행렬
이라고 표현했지만, 영어 단어를 그대로 살려confusion matrix
라고 활용한다.
Confusion Matrix
-
분류 모형을 통해 머신러닝을 학습하게 되면
confusion matrix
표를 우선 작성하게 된다. -
이 표에서 무엇을 볼 수 있는가?
- 우선 전체 데이터의 크기를 확인할 수 있다. (165명)
- 예측값
YES
는 (100+10) 110명이고, 예측값NO
는 (50+5) 55명이다. - 실제값
YES
는 (100+5) 105명이고, 실제값NO
는 (50+10) 60명이다.
-
기본 영어를 정의해본다.
- 상상을 한다. 당뇨병과 같은 질병을 진단하는 분류기를 만든다고 가정 해본다.
T
rueP
ositives(TP): 실제로 질병을 가지고 있었고(True)
, 또한양성(Positives)
이라고 예측한 것이다.T
rueN
egatives(TN): 실제로 질병을 가지고 있지 않았고(True)
, 또한음성(Negatives)
이라고 예측한 것이다.F
alseP
ositives(FP): 질병을 가지고 있지 않았는데,양성(Positives)
이라고 예측한 것이다. 결과적으로False
F
alseN
egatives(FN): 질병을 가지고 있는데,음성(Negatives)
이라고 예측한 것이다. 결과적으로False
Level 01. 혼동행렬을 활용한 여러 지표들
- 정분류율
- (TP+TN) / Total = (100 + 50) / 165 = 0.91
- 오분류율 (Error Rate)
- (FP+FN) / Total = (10 + 5) / 165 = 0.09
- 민감도=재현율 (Sensitivity or Recall)
- 실제값
YES (100+5)
중에서 실제TP
로 분류된 경우를 말한다. - 100 / (100 + 5) = 0.95
- True Positive Rate (TPR)이라고 부른다.
- 실제값
- Fall-Out
양성(10)
이라고 예측했지만, 실제로는음성(60)
인 경우를 말한다.- 10 / (50+10) = 0.17
- 특이도 (Specificity)
- 정확히
Fall-Out
과 반대되는 개념이다. 음성(50)
이라고 예측했는데, 실제로도음성(60)
인 경우를 말한다.- 50/(50 + 10) = 0.83
- 정확히
- 정밀도 (Precision)
- 정밀도는
양성(100)
이라고 했는데, 실제로 양성인 경우를 말한다. - 100/(100 + 10) = 0.91
- 정밀도는
(계속)