목표
회귀분석의 기본 개념
규제(Regularization) 기법 이해
회귀 모델 평가 지표 활용
강의 자료 : 챕터 1-3 : 값을 예측하고 싶어? 회귀!
실습 자료 : 회귀
1. 회귀 분석 개요
회귀 분석
종속 변수(Y)와 하나 이상의 독립변수(X) 간의 관계를 추정하여 연속형 종속변수를 예측하는 통게/머신러닝 기법
지도학습에서의 분류(Classification)와 회귀(Regression)의 차이
분류 : 결과값이 이산형(클래스 라벨)
회귀 : 결과값이 연속형(숫자 값)
회귀 모델을 사용하는 이유
1. 미래 값 예측
판매량, 주가, 온도 등 실수값 예측에 사용
2. 인과 관계 해석(통계 관점)
특정 독립변수가 종속변수에 미치는 영향력을 해석하기 위해
3. 데이터 기반 의사결정
추세(Trend) 파악, 자원 배분 등
제조업에서 회귀 모델의 활용 사례
불량률, 생산량 예측(ex : 온도, 습도, 기계 속도 등의 데이터 이용)
생산 설비에 부착된 센서(온도, 진동, 소음 등)에서 수집된 데이터를 바탕으로, 장비 고장 시점을 사전에 예측
2. 선형 회귀
독립변수(X)와 종속변수(Y)가 선형적(일차 방정식 형태)으로 관계를 맺고 있다고 가정

선형 회귀 모델 학습 과정
1. 가중치(회귀계수) 초기화
2. 손실함수(오차, 손실) 설정
주로 MSE(Mean Squared Error) 사용
3. 최적화
수학적인 방법(최소자승법), 경사하강법 등을 통해 가중치를 업데이트
4. 학습 완료 후
B0, B1....를 얻어서 새로운 입력 값에 대한 예측 수행
선형회귀의 장단점
장점: 해석이 간단, 구현이 쉬움
단점: 데이터가 선형성이 아닐 경우 예측력이 떨어짐
3. 다항 회귀
비선형적인 관계를 다항식(polynomial) 형태로 모델링

주의점
고차항을 무작정 늘리면 훈련 데이터에는 과도하게 맞춰져 과적합(overfitting) 문제가 발생할 수 있음
모델 복잡도와 일반화 성능 간의 균형을 맞춰야 함
4. 회귀 모델 평가 방법
1. MSE (Mean Squared Error)

예측값과 실제값의 차이를 제곱하여 평균
오차가 클수록 제곱에 의해 더 큰 벌점이 매겨지므로, 큰 오차에 특히 민감
평균 제곱 오차라고도 하며, 회귀 모델 평가에서 매우 자주 사용됨
2. MAE (Mean Absolute Error)

예측값과 실제값의 차이를 절댓값으로 측정한 후 평균
예측이 평균적으로 실제값에서 얼마나 벗어났는지 직관적으로 표현
3. RMSE (Root Mean Squared Error)

MAE와 달리 제곱을 통해 큰 오차에 가중치를 더 주는 특징
오차가 클수록 패널티가 커지므로, 큰 오차가 중요한 문제에서 자주 사용
4. R² (결정 계수)

1에 가까울수록 학습된 모델이 데이터를 잘 설명한다고 볼 수 있음
0이라면 모델이 종속변수를 전혀 설명하지 못한다는 의미
5. 고급 회귀 기법 - Lasso & Ridge Regression
1. Ridge(릿지) 회귀

가중치 제곱합(L2 Norm)을 페널티로 추가
효과: 가중치가 너무 커지지 않도록 방지(가중치 값을 부드럽게 줄임)
과적합을 줄일 수 있음
2. Lasso(라쏘) 회귀

가중치 절댓값합(L1 Norm)을 페널티로 추가
효과: 가중치를 0으로 만들어 변수 선택(Feature Selection) 효과
'내일배움캠프_QAQC 1기 > 실무에 쓰는 머신러닝' 카테고리의 다른 글
| [1-4] 분류 (1) | 2025.03.18 |
|---|---|
| [1-2] 머신러닝을 하기전에 데이터 전처리 먼저 (0) | 2025.03.18 |
| [1-1] 머신러닝이란 (0) | 2025.03.13 |