참양성, 거짓양성, 참음성, 거짓음성은 모델을 평가하는 데 유용한 여러 측정항목을 계산하는 데 사용됩니다. 가장 의미 있는 평가 측정항목은 특정 모델과 특정 작업, 다양한 오분류의 비용, 데이터 세트의 균형 여부에 따라 다릅니다.
이 섹션의 모든 측정항목은 단일 고정 기준점에서 계산되며 기준점이 변경되면 변경됩니다. 사용자는 이러한 측정항목 중 하나를 최적화하기 위해 임곗값을 조정하는 경우가 많습니다.
정확성
정확성은 양성 또는 음성 여부와 관계없이 올바른 모든 분류의 비율입니다. 수학적으로는 다음과 같이 정의됩니다.
\[\text{Accuracy} = \frac{\text{correct classifications}}{\text{total classifications}} = \frac{TP+TN}{TP+TN+FP+FN}\]
스팸 분류 예에서 정확성은 올바르게 분류된 모든 이메일의 비율을 측정합니다.
완벽한 모델은 거짓양성과 거짓음성이 0이므로 정확도가 1.0(100%)입니다.
정확성은 혼동 행렬의 네 가지 결과(TP, FP, TN, FN)를 모두 통합하므로 두 클래스에 유사한 수의 예가 있는 균형 잡힌 데이터 세트를 고려할 때 모델 품질을 대략적으로 측정하는 데 사용할 수 있습니다. 따라서 일반적인 작업이나 지정되지 않은 작업을 실행하는 일반적인 모델이나 지정되지 않은 모델에 사용되는 기본 평가 측정항목이 되는 경우가 많습니다.
그러나 데이터 세트가 불균형하거나 한 가지 종류의 실수(FN 또는 FP)가 다른 것보다 비용이 더 많이 드는 경우(대부분의 실제 애플리케이션에서 그렇습니다) 다른 측정항목 중 하나에 맞게 최적화하는 것이 좋습니다.
한 클래스가 매우 드물게(예: 1%) 나타나는 심각하게 불균형한 데이터 세트의 경우 100% 음성으로 예측하는 모델은 무용함에도 불구하고 정확도 점수가 99% 입니다.
재현율 또는 참양성률
참양성률 (TPR) 또는 양성으로 올바르게 분류된 모든 실제 양성의 비율은 재현율이라고도 합니다.
재현율은 수학적으로 다음과 같이 정의됩니다.
\[\text{Recall (or TPR)} = \frac{\text{correctly classified actual positives}}{\text{all actual positives}} = \frac{TP}{TP+FN}\]
거짓음성은 음성으로 잘못 분류된 실제 양성입니다. 이 때문에 거짓음성은 분모에 표시됩니다. 스팸 분류 예에서 재현율은 스팸으로 올바르게 분류된 스팸 이메일의 비율을 측정합니다. 이 때문에 재현율의 다른 이름은 감지 확률입니다. '이 모델에서 감지되는 스팸 이메일의 비율은 얼마인가요?'라는 질문에 답변하기 때문입니다.
가상의 완벽한 모델은 거짓음성이 없으므로 재현율 (TPR)이 1.0, 즉 100% 감지율입니다.
실제 양성 수가 매우 적은 불균형 데이터 세트에서 재현율은 모든 양성 인스턴스를 올바르게 식별하는 모델의 능력을 측정하기 때문에 정확도보다 더 의미 있는 측정항목입니다. 질병 예측과 같은 애플리케이션의 경우 양성 사례를 정확하게 식별하는 것이 중요합니다. 거짓음성은 일반적으로 거짓양성보다 더 심각한 결과를 초래합니다. 재현율과 정확도 측정항목을 비교하는 구체적인 예는 재현율 정의의 메모를 참고하세요.
거짓양성률
거짓양성률 (FPR)은 양성으로 잘못 분류된 모든 실제 음성의 비율로, 거짓 경보 가능성이라고도 합니다. 수학적으로는 다음과 같이 정의됩니다.
\[\text{FPR} = \frac{\text{incorrectly classified actual negatives}} {\text{all actual negatives}} = \frac{FP}{FP+TN}\]
거짓양성은 잘못 분류된 실제 음성입니다. 이 때문에 거짓양성이 분모에 표시됩니다. 스팸 분류 예에서 FPR은 스팸으로 잘못 분류된 정상 이메일의 비율 또는 모델의 거짓 경보 비율을 측정합니다.
완벽한 모델은 거짓양성이 없으므로 FPR이 0.0, 즉 거짓 경보율이 0% 입니다.
실제 음성의 수가 매우 적은(예: 총 1~2개) 불균형 데이터 세트에서는 FPR이 측정항목으로서 의미가 없고 유용하지 않습니다.
정밀도
정밀도는 실제로 양성인 모든 모델의 양성 분류의 비율입니다. 수학적으로는 다음과 같이 정의됩니다.
\[\text{Precision} = \frac{\text{correctly classified actual positives}} {\text{everything classified as positive}} = \frac{TP}{TP+FP}\]
스팸 분류 예에서 정밀도는 스팸으로 분류된 이메일 중 실제로 스팸인 비율을 측정합니다.
가상의 완벽한 모델은 거짓양성이 없으므로 정밀도가 1.0입니다.
실제 양성 수가 매우 적은(예: 총 1~2개) 불균형 데이터 세트에서는 정밀도가 측정항목으로서 의미가 없고 유용하지 않습니다.
거짓양성이 줄어들수록 정밀도가 개선되고 거짓음성이 줄어들수록 재현율이 개선됩니다. 하지만 이전 섹션에서 보았듯이 분류 임곗값을 높이면 거짓양성 수가 줄고 거짓음성 수가 늘어나는 경향이 있으며, 임곗값을 낮추면 그 반대의 효과가 나타납니다. 따라서 정밀도와 재현율은 종종 하나를 개선하면 다른 하나가 악화되는 역관계를 보입니다.
직접 사용해 보세요.
측정항목에서 NaN은 무엇을 의미하나요?
0으로 나눌 때 NaN('숫자가 아님')이 표시되며, 이는 이러한 측정항목에서 발생할 수 있습니다. 예를 들어 TP와 FP가 모두 0인 경우 정밀도 수식의 분모에 0이 포함되어 NaN이 됩니다. 경우에 따라 NaN이 완벽한 성능을 나타내고 1.0 점수로 대체될 수 있지만, 실제로는 쓸모없는 모델에서 NaN이 발생할 수도 있습니다. 예를 들어 양성을 예측하지 않는 모델은 TP가 0이고 FP가 0이므로 정밀도 계산 결과 NaN이 됩니다.
측정항목 선택 및 절충사항
모델을 평가하고 임곗값을 선택할 때 우선순위를 두는 측정항목은 특정 문제의 비용, 이점, 위험에 따라 다릅니다. 스팸 분류 예시에서 모든 스팸 이메일을 포착하는 재현율이나 스팸 라벨이 지정된 이메일이 실제로 스팸인지 확인하려는 정확성, 또는 두 가지의 균형을 최소 정확도 수준 이상으로 유지하는 것이 좋습니다.
측정항목 | 안내 |
---|---|
정확성 | 균형 잡힌 데이터 세트의 모델 학습 진행 상황/수렴의 대략적인 지표로 사용합니다. 모델 실적의 경우 다른 측정항목과 함께만 사용하세요. 불균형한 데이터 세트의 경우 피하세요. 다른 측정항목을 사용해 보세요. |
재현율 (참양성률) |
거짓음성이 거짓양성보다 비용이 더 많이 드는 경우에 사용합니다. |
거짓양성률 | 거짓양성이 거짓음성보다 비용이 더 많이 드는 경우에 사용합니다. |
정밀도 | 양성 예측의 정확성이 매우 중요한 경우에 사용합니다. |
(선택사항, 고급) F1 점수
F1 점수는 정밀도와 재현율의 조화 평균 (일종의 평균)입니다.
수학적으로는 다음과 같이 주어집니다.
이 측정항목은 정밀도와 재현율의 중요성을 조정하며, 클래스 불균형 데이터 세트의 경우 정확성보다 유용합니다. 정밀도와 재현율이 모두 1.0의 만점을 얻으면 F1 점수도 1.0의 만점을 얻습니다. 더 광범위하게는 정밀도와 재현율의 값이 비슷하면 F1도 그 값에 가까워집니다. 정밀도와 재현율이 서로 멀리 떨어져 있으면 F1은 두 측정항목 중 더 나쁜 측정항목과 유사합니다.