내일배움캠프_QAQC 1기/통계학 기초

[1/17] 데이터 분석을 위한 통계학 입문_2회차

이지응:) 2025. 1. 20. 20:25

 

자료 : [통계] 데이터 분석을 위한 통계학 입문 2

실습1.ipynb - Colab

실습2.ipynb - Colab

 

파이썬 틀

1. 라이브러리

2. data

3. 전처리

4. 모델 불러오기

5. 모델 실행

6. 결과 확인

 

 

통계적 실험

  • 특정 개선 목적을 가지고 표본으로부터 얻은 측정값(데이터)을 통계적으로 해석하여 결과(개선 효과가 유의한)를 판단하는 과정
  • 제한된 표본으로부터 전체(모집단)의 특징을 확률적으로 추론하기 위함
  • 단계
    • 목적 -> 개선 효과 유의한지-> data->t-검정, 아노바 분석 -> 결론(p-value)

분석 기법 선택

  • 연속형(시간, 무게, 길이 등)
    • 2개 집단 평균 비교: t-검정, z-검정
    • 3개 이상 집단 평균 비교: ANOVA(F-검정)
    • EX) T 검정: 공정 전/후(명목형)의 평균 불량 개수, 평균 생산시간 등(연속형)을 비교할 때(명목형과 수치형 비교)
  • 범주형(불량/양품, 합격/불합격 등)
    • 2개 이상의 집단에서 비율(또는 빈도) 비교: 카이제곱검정
    • EX) 카이제곱검정: 공정 전/후(명목형)의 불량률(범주형)을 비교할 때(명목형과 명목형 비교)

평가

  • 유의수준(α)과 신뢰수준(1−α)
  • α = 0.05일 때 만약 p-value<0.05면 통계적으로 유의미(대립가설 채택)
  •  p-value>=0.05면 귀무가설을 기각할 근거가 부족 (귀무가설 채택)

 

가설 채택

  • p-value
  • p-value < α → 대립가설 채택(차이 있음, 유의미, 대립가설)
  • p-value ≥ α → 귀무가설 채택(차이 없음, 무의미, 귀무가설)

공정 전/후 비교 실습 예시

import scipy.stats as st
import numpy as np

# 예: 공정 전/후 불량 개수(범주형) → 카이제곱검정 or 이항검정 적합.
# 하지만 여기선 간단히 t검정으로 예시:

before = [0, 1, 0, 0, 2, 1, 1, 1, 0, 2]  # 공정 전 불량 개수(10번 측정)
after  = [0, 0, 0, 1, 0, 1, 0, 0, 0, 1]  # 공정 후 불량 개수(10번 측정)

t_stat, p_val = st.ttest_ind(before, after)
print("검정통계량(t):", t_stat, ", p-value:", p_val)

alpha = 0.05
if p_val < alpha:
    print("→ 귀무가설 기각 (개선 효과 유의미)")
else:
    print("→ 귀무가설 채택 (개선 효과 통계적으로 확인 어려움)")

 

 

실습 단계

1. 목표 정의

2. 데이터 준비

3. 가설 설정(귀무 가설/대립 가설)

4. 통계적 유의성 설정(95% 신뢰 수준)
5. 가설검정 절차

5-1 데이터의 기초 통계량 확인

5-2 검정 방법 선택

5-3 검정 수행

6. 코드 작성

7. 결과 해석(t-통계량/p-값)

 

 

아노바(ANOVA) 분석

  • 두 개 이상의 집단 간 평균 차이를 검정하는 통계적 기법
  • 분산 분석의 기본 아이디어: 집단 간 변동(between-group variance)과 집단 내 변동(within-group variance)을 비교
  • 단일 요인(one-way ANOVA)과 다중 요인(two-way ANOVA)
  • 활용 사례
    • 다양한 산업과 연구 분야에서 평균 비교 분석에 사용
    • 업로드된 연료 소비 데이터에서는 연료 종류나 연도별 평균 소비량 차이 분석에 활용 가능

 

QQ Plot

1. 기본 구성

  • X축: 정규분포의 이론적 분위수
  • Y축: 실제 데이터의 분위수
  • 기준선: 정규분포 가정 시 데이터가 따라야 할 선

2. 주요 관찰 포인트

  • 하단부: 왼쪽 꼬리가 기준선보다 아래로 벗어남
  • 상단부: 오른쪽 꼬리가 기준선보다 위로 벗어남
  • 중앙부: 기준선과 비교적 잘 일치

 

F-통계량

  • 집단 간 분산 / 집단 내 분산
  • 값이 클수록 집단 간 차이가 뚜렸하다.

 

등분산성 검사

Levene 검정(Levene's test)

1. 목적과 개념

  • 두 개 이상 그룹의 분산 동질성(등분산성) 검정
  • t-검정이나 ANOVA 수행 전 등분산성 가정을 확인하는 데 사용
  • 귀무가설: 모든 그룹의 분산이 동일하다

3. 해석 방법

  • p-value < 0.05: 등분산성 가정 위배
  • p-value ≥ 0.05: 등분산성 가정 만족

4. 장점

  • 정규성 가정에 덜 민감
  • 여러 그룹 동시 비교 가능
  • 비교적 강건한 검정 방법

5. 주의사항

  • 표본 크기가 작을 때는 검정력이 낮을 수 있음
  • 매우 큰 표본에서는 작은 분산 차이도 유의미하게 나타날 수 있음
  • 심각한 정규성 위반 시 결과 해석에 주의 필요