목표
머신러닝의 개념과 데이터 분석에서의 역할을 이해
머신러닝 모델링 프로세스의 각 단계를 파악
머신러닝, 딥러닝, AI의 관계 및 차이를 알기
강의 자료 : 챕터 1-1 : 머신러닝이란?
1. 머신러닝
- 컴퓨터가 인간의 개입 없이(또는 최소한으로) 데이터를 학습하여 패턴을 찾아내고, 새로운 데이터에 대해 예측이나 분류를 수행하는 기술
- 머신러닝의 3대 요소
1. 데이터
2. 알고리즘 = 모델
3. 컴퓨팅 파워
컴퓨터가 얼마나 빠르고 많이 일(연산)을 할 수 있는지를 나타내는 능력치
- 머신러닝, AI, 딥러닝의 관계
딥러닝 < 머신러닝 < AI
1. 인공지능(AI)
사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념
2. 머신러닝
AI를 실현하기 위한 방법 중 하나로, 데이터로부터 특징이나 규칙을 찾아내서 학습하는 것
3. 딥러닝
머신러닝의 하위 분야로, 사람의 뇌신경을 본 떠 만든 인공신경망으로 이루어져 있음
인공신경망을 여러 겹 쌓아서 복잡한 정보를 학습할 수 있음
EX) Chat GPT
2. 머신러닝의 역할 및 중요성
- 제조업 분야에서의 활용
센서 데이터 수집 -> 설비 이상 징후 예측, 품질 불량 예측
자동화된 공정 제어 및 유지 보수 비용 절감
- 제조업 예시
- 예측 유지 보수 : 생산 설비에 부착된 센서(온도, 진동, 소음 등)에서 수집된 데이터를 바탕으로, 장비 고장 시점을 사전에 예측
- 품질 관리 : 이미지 분석, 센서 데이터 분석 등을 통해 제품 결함이나 불량 여부를 판별
- 생산 공정 최적화 : 공정 단계별 데이터를 수집하여 병목 현상, 자원 활용 비율 등을 분석하고, 전체 공정 효율을 최대화하도록 제어/설계
- 수요 예측 : 과거 판매량, 계절성, 프로모션, 경제 지표 등의 데이터를 종합적으로 분석해 미래 수요량을 정확히 예측
- 에너지 효율 최적화 : 공장에서 전기·가스 등을 언제 얼마나 쓰는지 실시간으로 파악해서, 낭비되는 부분을 줄이고 필요한 곳에만 적절히 에너지를 공급하도록 조절하는 방식
3. 머신러닝 VS 기존 통계 분석
- 가설 검증 VS 예측 성능
1. 통계 분석
- 가설 검증, 추론
- 주로 "왜?"라는 질문에 집중
- 표본 수가 커지면 더 정교한 추론이 가능하지만, 일반적으로 가설 자체는 사람이 세움
- 표본 수가 커지면 더 정교한 추론이 가능하지만, 일반적으로 가설 자체는 사람이 세움
2. 머신러닝
- 예측(얼마나 정확하게 미래나 미지의 데이터를 예측할 수 있는가)
- "얼마나 잘?"에 집중(정확도, 재현율 등)
- 데이터가 많을수록 학습에 유리하며, 더 좋은 모델을 만들 수 있음
4. 머신러닝의 종류
- 지도학습(Supervised Learning)
1. 분류 (Classification) : 어느 그룹에 속하는지를 결정
2. 회귀 (Regression) : 숫자로 된 결과를 예측
- 비지도학습(Unsupervised Learning)
1. 군집화(Clustering) : 성향이 비슷한 사람이나 사물을 자동으로 묶어내는 기법
2. 차원 축소(Dimensionality Reduction) : 데이터의 특징(변수)이 너무 많아서 복잡한 데이터를 핵심 정보만 남기고 압축하는 기법
- 강화학습(Reinforcement Learning)
5. 머신러닝 모델링 프로세스
데이터 수집 -> 전처리 -> 모델링 -> 성능 평가
1. 데이터 수집
웹 크롤링, 센서 측정, 설문조사, DB 추출 등 다양한 방법
양질의 데이터 확보가 프로젝트의 성패를 좌우
2. 전처리
(1) 결측치 처리
(2) 이상치 처리
(3) 스케일링 : 다른 단위를 쓰는 데이터를 비슷한 수준으로 맞춰주는 작업
(4) 범주형 변환
원-핫 인코딩 : 해당 범주에 속하면 1, 아니면 0을 넣는 방식
레이블 인코딩 : 순서대로 숫자를 부여
3. 모델링
지도학습의 경우 분류/회귀 알고리즘 선택
비지도학습의 경우 클러스터링/차원 축소 알고리즘 선택
4. 성능 평가
분류 : Accuracy, Precision, Recall, F1-score, ROC-AUC 등
회귀 : MAE, RMSE, R² 등
비지도(군집) : 실루엣 계수 등
6. 윤리적 이슈 및 데이터 편향
1. 윤리적 책임(Responsible AI)
편향을 줄이기 위한 데이터 균등화
민감 정보 보호
2. 데이터 편향(Data Bias)
학습 데이터에 편향된 샘플이 많으면 모델도 그 편향을 그대로 학습
'내일배움캠프_QAQC 1기 > 실무에 쓰는 머신러닝' 카테고리의 다른 글
| [1-4] 분류 (1) | 2025.03.18 |
|---|---|
| [1-3] 회귀 분석 (0) | 2025.03.18 |
| [1-2] 머신러닝을 하기전에 데이터 전처리 먼저 (0) | 2025.03.18 |