내일배움캠프_QAQC 1기/실무에 쓰는 머신러닝

[1-1] 머신러닝이란

이지응:) 2025. 3. 13. 20:05
목표

머신러닝의 개념과 데이터 분석에서의 역할을 이해
머신러닝 모델링 프로세스의 각 단계를 파악
머신러닝, 딥러닝, AI의 관계 및 차이를 알기

 

강의 자료 : 챕터 1-1 : 머신러닝이란?

 

1. 머신러닝

- 컴퓨터가 인간의 개입 없이(또는 최소한으로) 데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술

 

- 머신러닝의 3대 요소

1. 데이터

2. 알고리즘 = 모델

3. 컴퓨팅 파워 

    컴퓨터가 얼마나 빠르고 많이 일(연산)을 할 수 있는지를 나타내는 능력치

 

- 머신러닝, AI, 딥러닝의 관계

딥러닝 < 머신러닝 < AI

 

1. 인공지능(AI)

사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념

2. 머신러닝

AI를 실현하기 위한 방법 중 하나로, 데이터로부터 특징이나 규칙을 찾아내서 학습하는 것

3. 딥러닝

머신러닝의 하위 분야로, 사람의 뇌신경을 본 떠 만든 인공신경망으로 이루어져 있음

인공신경망을 여러 겹 쌓아서 복잡한 정보를 학습할 수 있음

EX) Chat GPT

 

2. 머신러닝의 역할 및 중요성

- 제조업 분야에서의 활용

센서 데이터 수집 -> 설비 이상 징후 예측, 품질 불량 예측

자동화된 공정 제어 및 유지 보수 비용 절감

 

- 제조업 예시

  • 예측 유지 보수 : 생산 설비에 부착된 센서(온도, 진동, 소음 등)에서 수집된 데이터를 바탕으로, 장비 고장 시점을 사전에 예측
  • 품질 관리 : 이미지 분석, 센서 데이터 분석 등을 통해 제품 결함이나 불량 여부를 판별
  • 생산 공정 최적화 : 공정 단계별 데이터를 수집하여 병목 현상, 자원 활용 비율 등을 분석하고, 전체 공정 효율을 최대화하도록 제어/설계
  • 수요 예측 : 과거 판매량, 계절성, 프로모션, 경제 지표 등의 데이터를 종합적으로 분석해 미래 수요량을 정확히 예측
  • 에너지 효율 최적화 : 공장에서 전기·가스 등을 언제 얼마나 쓰는지 실시간으로 파악해서, 낭비되는 부분을 줄이고 필요한 곳에만 적절히 에너지를 공급하도록 조절하는 방식

3. 머신러닝 VS 기존 통계 분석

- 가설 검증 VS 예측 성능

1. 통계 분석

  • 가설 검증, 추론
  • 주로 "왜?"라는 질문에 집중
  • 표본 수가 커지면 더 정교한 추론이 가능하지만, 일반적으로 가설 자체는 사람이 세움
  • 표본 수가 커지면 더 정교한 추론이 가능하지만, 일반적으로 가설 자체는 사람이 세움

2. 머신러닝

  • 예측(얼마나 정확하게 미래나 미지의 데이터를 예측할 수 있는가)
  • "얼마나 잘?"에 집중(정확도, 재현율 등)
  • 데이터가 많을수록 학습에 유리하며, 더 좋은 모델을 만들 수 있음

4. 머신러닝의 종류

- 지도학습(Supervised Learning)

1. 분류 (Classification) : 어느 그룹에 속하는지를 결정

2. 회귀 (Regression)  : 숫자로 된 결과를 예측

 

- 비지도학습(Unsupervised Learning)

1. 군집화(Clustering) : 성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법

2. 차원 축소(Dimensionality Reduction) : 데이터의 특징(변수)이 너무 많아서 복잡한 데이터를 핵심 정보만 남기고 압축하는 기법

 

- 강화학습(Reinforcement Learning)

 

5. 머신러닝 모델링 프로세스

데이터 수집 -> 전처리 -> 모델링 -> 성능 평가

 

1. 데이터 수집

웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법

양질의 데이터 확보가 프로젝트의 성패를 좌우

 

2. 전처리

(1) 결측치 처리

(2) 이상치 처리

(3) 스케일링 : 다른 단위를 쓰는 데이터를 비슷한 수준으로 맞춰주는 작업

(4) 범주형 변환

     원-핫 인코딩 : 해당 범주에 속하면 1, 아니면 0을 넣는 방식

     레이블 인코딩 : 순서대로 숫자를 부여

 

3. 모델링

지도학습의 경우 분류/회귀 알고리즘 선택

비지도학습의 경우 클러스터링/차원 축소 알고리즘 선택

 

4. 성능 평가

분류 : Accuracy, Precision, Recall, F1-score, ROC-AUC 등

회귀 : MAE, RMSE, R² 등

비지도(군집) : 실루엣 계수 등

 

6. 윤리적 이슈 및 데이터 편향

1. 윤리적 책임(Responsible AI)

편향을 줄이기 위한 데이터 균등화

민감 정보 보호

 

2. 데이터 편향(Data Bias)

학습 데이터에 편향된 샘플이 많으면 모델도 그 편향을 그대로 학습