내일배움캠프_QAQC 1기/실무에 쓰는 머신러닝

[1-4] 분류

이지응:) 2025. 3. 18. 20:31
목표

분류 모델의 개념 이해
다양한 산업 분야 적용 사례 습득
분류 모델 평가 지표 활용 능력

 

강의 자료 : 챕터 1-4 : 무엇인지 맞추고 싶어? 분류!

실습 자료 : 분류

 

1. 분류 모델 개요

분류의 목적

데이터가 어느 범주(클래스)에 속하는지 예측

분류 문제를 해결하기 위해 자주 활용되는 알고리즘 : Logistic Regression, SVM

 

분류 모델이 많이 쓰이는 이유

1. 이진 분류 (양성/음성, 합격/불합격, 정상/불량 등)는 직관적이고 다양한 산업에서 필요함

2. 데이터 분석에서 가장 먼저 접하는 모델 중 하나

 

2. 주요 분류 모델

1. 로지스틱 회귀(Logistic Regression)

선형 회귀처럼 입력값의 선형 결합을 취하지만, 결과를 0~1 사이의 확률로 변환하기 위해 로지스틱 함수(시그모이드 함수)를 사용

 

장점

계산이 빠르고 구현이 간단하다.

결과 해석이 용이(회귀 계수로 각 변수의 영향도 해석 가능)

 

단점

복잡한 비선형 패턴을 학습하기엔 한계가 있음.

 

2. SVM(Support Vector Machine)

데이터를 가장 잘(안전 여유공간을 크게) 구분하는 경계를 찾는 알고리즘 예를들면, 두 부류(ex: 고양이 vs 개)를 잘 구분해주는 경계를 찾는데, 두 부류가 최대한 멀리 떨어지도록(안전 여유공간이 넓도록) 찾는 방식

장점

차원이 높은 데이터에서도 좋은 성능을 보일 수 있음.

결정 경계를 명확하게 찾는 경우, 예측 성능이 우수함.

결정경계란? → SVM이 찾은 최적의 분류선(또는 초평면)

ex) 한쪽 편을 '고양이'로, 다른 한편을 '개'로 구분해주는 기준선

 

단점

파라미터(C, 커널 종류 등)를 적절히 찾아야 하므로 튜닝 비용이 큼.

대규모 데이터 세트에 대해서는 학습 속도가 느릴 수 있음.

 

3. 추가로 알면 좋은 모델

(1) K-NN(K-최근접 이웃)

    간단하지만 대규모 데이터에서 계산량이 큼

(2) 나이브 베이즈(Naive Bayes)

    통계적 가정(독립성)에 기반하므로 계산이 빠름, 스팸 필터 등에서 자주 사용

(3) 신경망(MLP) 또는 딥러닝 모델

복잡도는 높지만 대규모 데이터에서 강점

 

분류 모델의 제조업 분 적용 사례

1. 불량 검출

공정에서 생산된 부품이 불량인지 아닌지 분류

 

2. 장비 이상 탐지

센서 데이터(온도, 진동, 압력 등)를 기반으로 이상 여부 분류

 

3. 적용 모델

랜덤 포레스트, SVM, 앙상블 모델, 딥러닝이 주로 활용됨

 

3. 모델 평가 방법

1. Cross Entropy, Hinge Loss

분류(Classification) 모델에 사용되는 손실함수

 

(1) Binary Cross Entropy / Cross Entropy

  • Binary Cross Entropy 2진 분류에서 자주 사용
  • 일반적으로 다중 분류에서 Cross Entropy를 사용
  • 예측 확률이 실제 레이블과 얼마나 차이가 있는지 측정

(2) Hinge Loss

  • SVM(Support Vector Machine)에서 많이 사용
  • 마진을 고려하여 오분류된 샘플에 페널티를 부여

2. 혼동 행렬(Confusion Matrix)

실제 클래스와 예측 클래스의 관계를 행렬 형태로 나타낸 것

 

3. Precision, Recall, F1-score

(1) Precision(정밀도):

  • 예측을 Positive라고 한 사례 중, 실제로 Positive인 비율.
  • “예측 정확도” 관점에서 중요. (예: 스팸 예측)

(2) Recall(재현율)

  • 실제 Positive 사례 중, 모델이 Positive로 맞춘 비율.
  • “놓치지 않는 것”이 중요한 경우(예: 질병 진단) 강조.

(3) F1-score

  • Precision과 Recall의 조화평균.
  • 두 지표가 모두 중요한 경우를 종합적으로 평가하기 좋음.

 

4. ROC 곡선과 AUC(Area Under the Curve)

(1) ROC 곡선

  • 임계값(Threshold)을 변화시키며, TPR(True Positive Rate)과 FPR(False Positive Rate)의 변화를 시각화한 곡선
  • TPR(True Positive Rate) : 재현율 또는 민감도
    • 실제 양성(Positive) 샘플 중 모델이 양성이라고 예측한 비율
    • 0~1 사이의 값을 가지며 1에 가까울 수록 좋음
    • TPR = TP / (TP + FN)
  • FPR(False Positive Rate)
    • 실제 음성(Negative) 샘플 중 모델이 양성이라고 잘못 예측한 비율
    • 0~1 사이의 값을 가지며 0에 가까울 수록 좋음
    • FPR = FP / (FP + TN)
  • TPR과 FPR은 트레이드 오프 관계 (한 쪽이 좋을 수록 한 쪽이 좋지 않음)
  • 클래스 불균형 상황에서 사용
  • 임계값을 조정해서 생기는 성능 변화 전체를 보여주기 때문에 단순히 성능 하나만 얘기하는 위의 지표들과는 다름

(2) AUC

  • ROC 곡선 아래 면적. 1에 가까울수록 모델이 우수함.
  • 불균형 데이터(Positive가 매우 적거나 많은 경우)에서도 모델 성능 비교에 유용

 

정사각형에 가까울수록 좋음