내일배움캠프_QAQC 1기/머신러닝의 이해와 라이브러리 활용

[1/22] 머신러닝 오프닝_1회차

이지응:) 2025. 1. 22. 19:35

강의 자료 : [ML] 머신러닝 오프닝 - 임영재 튜터

 

1회차는 이론에 대해서만 살펴보았습니다.

 

머신러닝

  • 기계(컴퓨터)가 학습을 할 수 있도록 하는 연구분야
  • 인공지능을 소프트웨어적으로 구현하는 머신러닝은 컴퓨터가 데이터를 학습하고 스스로 패턴을 찾아내 적절한 작업을 수행하도록 학습하는 알고리즘

 

개념의 크기 : 딥러닝 < 머신러닝 < AI 순

  • AI: 마치 인간처럼 학습 및 추론을 할 수 있도록 만들어진 프로그램
  • 머신 러닝: 데이터를 활용해 명시적으로 프로그래밍되지 않고도 학습할 수 있는 알고리즘
  • 딥 러닝: 머신 러닝의 종류 중 하나로 인공 신경망을 이용해 거대한 데이터셋을 학습하는 방법

 

빅데이터와 머신러닝

  • 엄청난 규모의 데이터를 칭하는 용어
  • Volume (데이터 양)
    • 방대한 양의 데이터.
    • 현대 사회에서는 소셜 미디어, 센서, 거래 기록 등으로 인해 매일 엄청난 데이터가 생성됩니다.
    • 머신러닝은 이렇게 많은 데이터를 활용해 패턴을 학습하고 예측할 수 있음.
  • Variety (데이터 다양성)
    • 다양한 데이터 형식(텍스트, 이미지, 오디오, 비디오 등).
    • 여러 소스에서 데이터를 수집하며, 머신러닝 모델은 이 다양한 데이터를 처리하고 분석하는 데 도움을 줌.
  • Velocity (데이터 속도)
    • 데이터 생성 속도.
    • 실시간 스트리밍 데이터처럼 빠르게 생성되는 데이터를 분석할 필요가 있음.
    • 머신러닝은 빠른 속도로 데이터를 처리하고 실시간으로 의사결정을 내릴 수 있음.
  • Veracity (데이터 진실성)
    • 데이터의 불확실성과 부정확성.
    • 데이터가 불완전하거나 오류를 포함할 수 있음.
    • 머신러닝은 데이터의 노이즈와 오류를 처리하고, 신뢰성 있는 결과를 도출하도록 학습할 수 있음.
  • Value (데이터 가치)
    • 데이터를 통해 유용한 정보를 추출하여 비즈니스나 연구 문제를 해결.
    • 머신러닝은 데이터를 분석해 예측, 분류, 군집화 등을 통해 가치를 창출함.
빅데이터는 원자재(데이터)
머신러닝은 이를 가공하여 유용한 제품(인사이트, 예측)을 만드는 공장이라 생각하면 

 

 

제조업에서 머신러닝의 역할

  • 품질 데이터의 자동 분석
    • 머신 러닝은 대규모 품질 데이터를 자동으로 처리하고, 데이터 패턴과 상관관계를 분석하여 공정의 품질 문제를 실시간으로 식별합니다.
  • 공정 이상 탐지 및 예측
    • 머신 러닝 기반 이상 탐지 모델은 공정 데이터에서 비정상적인 패턴을 감지하여, 결함 가능성을 사전에 예측하고 문제를 해결할 시간을 제공합니다.
  • 결함률 감소와 생산성 향상
    • 머신 러닝은 결함 예측과 공정 최적화를 통해 제품의 결함률을 줄이고, 생산성을 높이는 데 기여합니다.

 

머신러닝 학습의 종류

 

1. 지도학습

  • 지도학습은 입력 데이터와 해당 데이터에 대한 정답(레이블)을 사용하여 모델을 학습시키는 방법
  • 목표는 학습 데이터를 통해 모델을 훈련시킨 후, 새로운 입력 데이터에 대해 예측을 할 수 있는 모델을 만드는 것
  • 지도학습은 크게 분류회귀 문제로 나뉨

(1) 분류

 

분류 모델의 특징

  • 입력 데이터: 레이블(정답)이 포함된 데이터가 필요.
  • 출력 데이터: 입력 데이터를 특정 범주로 분류한 결과.
  • 알고리즘: 로지스틱 회귀, 의사결정트리, 랜덤 포레스트, SVM, 뉴럴 네트워크 등.

분류의 주요 유형

  1. 이진 분류 (Binary Classification) : 데이터가 두 개의 카테고리(예: "정상" 또는 "비정상")로 분류되는 경우
  2. 다중 분류 (Multiclass Classification) : 데이터가 세 개 이상의 카테고리로 분류되는 경우.
  3. 다중 레이블 분류 (Multilabel Classification):  하나의 데이터가 여러 개의 카테고리를 가질 수 있는 경우.

분류 모델의 특징

  • 입력 데이터: 레이블(정답)이 포함된 데이터가 필요.
  • 출력 데이터: 입력 데이터를 특정 범주로 분류한 결과.
  • 알고리즘: 로지스틱 회귀, 의사결정트리, 랜덤 포레스트, SVM, 뉴럴 네트워크 등.

(2) 회귀

데이터를 기반으로 연속적인 숫자 값을 예측하는 작업

 

회귀의 주요 유형

  1. 선형 회귀 (Linear Regression)
  2. 다항 회귀 (Polynomial Regression) : 데이터를 비선형적으로 모델링할 때 사용
  3. 릿지 회귀(Ridge Regression) / 라쏘 회귀(Lasso Regression) : 다중 공선성 문제를 해결하기 위해 규제를 추가한 선형 회귀
  4. 서포트 벡터 회귀 (SVR) : 서포트 벡터 머신(SVM)을 기반으로 연속적인 값을 예측
  5. 결정 트리 회귀 / 랜덤 포레스트 회귀 : 의사결정 트리를 기반으로 데이터를 나누어 예측
  6. 딥러닝 기반 회귀 : 신경망을 활용하여 복잡한 관계를 학습

 

2. 비지도 학습

  • 비지도 학습은 레이블이 없는 데이터를 분석하여 데이터 간의 관계, 그룹, 패턴 등을 찾는 알고리즘
  • 데이터 내부의 숨겨진 구조나 특징을 발견하여, 사람이 알지 못했던 새로운 인사이트를 제공합
  • 정답이 없기 때문에 정확도보다는 데이터 간의 유사성과 차이를 측정하는 데 중점
  • 주로 탐색적 데이터 분석(EDA)과 데이터 전처리 단계에서 활용
  • QA/QC에서 가장 많이 사용하는게 비지도 학습

비지도 학습의 주요 유형

  1. 클러스터링(Clustering) : 데이터를 유사한 그룹으로 묶는 작업
  2. 차원 축소(Dimensionality Reduction) : 데이터를 더 간결하고 중요한 특징들만 남기는 작업
  3. 연관 규칙 학습(Association Rule Learning) : 데이터 간의 상관관계를 발견하는 작업

 

3. 강화 학습

보상을 통해 상은 최대화, 벌은 최소화하는 방향으로 행위를 강화하는 학습

에이전트가 시행착오를 통해 학습하는 방식으로 실제 사람이나 동물이 학습하는 방식과 유사

 

 

머신러닝 모델링

  • 문제 정의
  • 데이터 수집 및 준비
  • 데이터 탐색 (EDA)
  • 모델 선택
  • 모델 학습
  • 모델 평가
  • 하이퍼파라미터 튜닝