파이썬 틀
1. 라이브러리
2. data
3. 전처리
4. 모델 불러오기
5. 모델 실행
6. 결과 확인
통계적 실험
- 특정 개선 목적을 가지고 표본으로부터 얻은 측정값(데이터)을 통계적으로 해석하여 결과(개선 효과가 유의한)를 판단하는 과정
- 제한된 표본으로부터 전체(모집단)의 특징을 확률적으로 추론하기 위함
- 단계
- 목적 -> 개선 효과 유의한지-> data->t-검정, 아노바 분석 -> 결론(p-value)
분석 기법 선택
- 연속형(시간, 무게, 길이 등)
- 2개 집단 평균 비교: t-검정, z-검정
- 3개 이상 집단 평균 비교: ANOVA(F-검정)
- EX) T 검정: 공정 전/후(명목형)의 평균 불량 개수, 평균 생산시간 등(연속형)을 비교할 때(명목형과 수치형 비교)
- 범주형(불량/양품, 합격/불합격 등)
- 2개 이상의 집단에서 비율(또는 빈도) 비교: 카이제곱검정
- EX) 카이제곱검정: 공정 전/후(명목형)의 불량률(범주형)을 비교할 때(명목형과 명목형 비교)
평가
- 유의수준(α)과 신뢰수준(1−α)
- α = 0.05일 때 만약 p-value<0.05면 통계적으로 유의미(대립가설 채택)
- p-value>=0.05면 귀무가설을 기각할 근거가 부족 (귀무가설 채택)
가설 채택
- p-value
- p-value < α → 대립가설 채택(차이 있음, 유의미, 대립가설)
- p-value ≥ α → 귀무가설 채택(차이 없음, 무의미, 귀무가설)
공정 전/후 비교 실습 예시
import scipy.stats as st
import numpy as np
# 예: 공정 전/후 불량 개수(범주형) → 카이제곱검정 or 이항검정 적합.
# 하지만 여기선 간단히 t검정으로 예시:
before = [0, 1, 0, 0, 2, 1, 1, 1, 0, 2] # 공정 전 불량 개수(10번 측정)
after = [0, 0, 0, 1, 0, 1, 0, 0, 0, 1] # 공정 후 불량 개수(10번 측정)
t_stat, p_val = st.ttest_ind(before, after)
print("검정통계량(t):", t_stat, ", p-value:", p_val)
alpha = 0.05
if p_val < alpha:
print("→ 귀무가설 기각 (개선 효과 유의미)")
else:
print("→ 귀무가설 채택 (개선 효과 통계적으로 확인 어려움)")
실습 단계
1. 목표 정의
2. 데이터 준비
3. 가설 설정(귀무 가설/대립 가설)
4. 통계적 유의성 설정(95% 신뢰 수준)
5. 가설검정 절차
5-1 데이터의 기초 통계량 확인
5-2 검정 방법 선택
5-3 검정 수행
6. 코드 작성
7. 결과 해석(t-통계량/p-값)
아노바(ANOVA) 분석
- 두 개 이상의 집단 간 평균 차이를 검정하는 통계적 기법
- 분산 분석의 기본 아이디어: 집단 간 변동(between-group variance)과 집단 내 변동(within-group variance)을 비교
- 단일 요인(one-way ANOVA)과 다중 요인(two-way ANOVA)
- 활용 사례
- 다양한 산업과 연구 분야에서 평균 비교 분석에 사용
- 업로드된 연료 소비 데이터에서는 연료 종류나 연도별 평균 소비량 차이 분석에 활용 가능
QQ Plot
1. 기본 구성
- X축: 정규분포의 이론적 분위수
- Y축: 실제 데이터의 분위수
- 기준선: 정규분포 가정 시 데이터가 따라야 할 선
2. 주요 관찰 포인트
- 하단부: 왼쪽 꼬리가 기준선보다 아래로 벗어남
- 상단부: 오른쪽 꼬리가 기준선보다 위로 벗어남
- 중앙부: 기준선과 비교적 잘 일치

F-통계량
- 집단 간 분산 / 집단 내 분산
- 값이 클수록 집단 간 차이가 뚜렸하다.
등분산성 검사
Levene 검정(Levene's test)
1. 목적과 개념
- 두 개 이상 그룹의 분산 동질성(등분산성) 검정
- t-검정이나 ANOVA 수행 전 등분산성 가정을 확인하는 데 사용
- 귀무가설: 모든 그룹의 분산이 동일하다
3. 해석 방법
- p-value < 0.05: 등분산성 가정 위배
- p-value ≥ 0.05: 등분산성 가정 만족
4. 장점
- 정규성 가정에 덜 민감
- 여러 그룹 동시 비교 가능
- 비교적 강건한 검정 방법
5. 주의사항
- 표본 크기가 작을 때는 검정력이 낮을 수 있음
- 매우 큰 표본에서는 작은 분산 차이도 유의미하게 나타날 수 있음
- 심각한 정규성 위반 시 결과 해석에 주의 필요
'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글
| [1/21] 데이터 분석을 위한 통계학 입문_4회차 (0) | 2025.01.21 |
|---|---|
| [1/20] 데이터 분석을 위한 통계학 입문_3회차 (0) | 2025.01.21 |
| 통계학 기초 복습 ① (0) | 2025.01.20 |
| 통게학 기초 6주차 (0) | 2025.01.20 |
| 통계학 기초 5주차 (2) | 2025.01.20 |