[1/17] 데이터 분석을 위한 통계학 입문

내일배움캠프_QAQC 1기/통계학 기초

[1/17] 데이터 분석을 위한 통계학 입문_2회차

이지응:) 2025. 1. 20. 20:25

자료 : [통계] 데이터 분석을 위한 통계학 입문 2

실습1.ipynb - Colab

실습2.ipynb - Colab

파이썬 틀

1. 라이브러리

2. data

3. 전처리

4. 모델 불러오기

5. 모델 실행

6. 결과 확인

통계적 실험

특정 개선 목적을 가지고 표본으로부터 얻은 측정값(데이터)을 통계적으로 해석하여 결과(개선 효과가 유의한)를 판단하는 과정
제한된 표본으로부터 전체(모집단)의 특징을 확률적으로 추론하기 위함
단계
- 목적 -> 개선 효과 유의한지-> data->t-검정, 아노바 분석 -> 결론(p-value)

분석 기법 선택

연속형(시간, 무게, 길이 등)
- 2개 집단 평균 비교: t-검정, z-검정
- 3개 이상 집단 평균 비교: ANOVA(F-검정)
- EX) T 검정: 공정 전/후(명목형)의 평균 불량 개수, 평균 생산시간 등(연속형)을 비교할 때(명목형과 수치형 비교)
범주형(불량/양품, 합격/불합격 등)
- 2개 이상의 집단에서 비율(또는 빈도) 비교: 카이제곱검정
- EX) 카이제곱검정: 공정 전/후(명목형)의 불량률(범주형)을 비교할 때(명목형과 명목형 비교)

평가

유의수준(α)과 신뢰수준(1−α)
α = 0.05일 때 만약 p-value<0.05면 통계적으로 유의미(대립가설 채택)
p-value>=0.05면 귀무가설을 기각할 근거가 부족 (귀무가설 채택)

가설 채택

p-value
p-value < α → 대립가설 채택(차이 있음, 유의미, 대립가설)
p-value ≥ α → 귀무가설 채택(차이 없음, 무의미, 귀무가설)

공정 전/후 비교 실습 예시

import scipy.stats as st
import numpy as np

# 예: 공정 전/후 불량 개수(범주형) → 카이제곱검정 or 이항검정 적합.
# 하지만 여기선 간단히 t검정으로 예시:

before = [0, 1, 0, 0, 2, 1, 1, 1, 0, 2]  # 공정 전 불량 개수(10번 측정)
after  = [0, 0, 0, 1, 0, 1, 0, 0, 0, 1]  # 공정 후 불량 개수(10번 측정)

t_stat, p_val = st.ttest_ind(before, after)
print("검정통계량(t):", t_stat, ", p-value:", p_val)

alpha = 0.05
if p_val < alpha:
    print("→ 귀무가설 기각 (개선 효과 유의미)")
else:
    print("→ 귀무가설 채택 (개선 효과 통계적으로 확인 어려움)")

실습 단계

1. 목표 정의

2. 데이터 준비

3. 가설 설정(귀무 가설/대립 가설)

4. 통계적 유의성 설정(95% 신뢰 수준)
5. 가설검정 절차

5-1 데이터의 기초 통계량 확인

5-2 검정 방법 선택

5-3 검정 수행

6. 코드 작성

7. 결과 해석(t-통계량/p-값)

아노바(ANOVA) 분석

두 개 이상의 집단 간 평균 차이를 검정하는 통계적 기법
분산 분석의 기본 아이디어: 집단 간 변동(between-group variance)과 집단 내 변동(within-group variance)을 비교
단일 요인(one-way ANOVA)과 다중 요인(two-way ANOVA)
활용 사례
- 다양한 산업과 연구 분야에서 평균 비교 분석에 사용
- 업로드된 연료 소비 데이터에서는 연료 종류나 연도별 평균 소비량 차이 분석에 활용 가능

QQ Plot

1. 기본 구성

X축: 정규분포의 이론적 분위수
Y축: 실제 데이터의 분위수
기준선: 정규분포 가정 시 데이터가 따라야 할 선

2. 주요 관찰 포인트

하단부: 왼쪽 꼬리가 기준선보다 아래로 벗어남
상단부: 오른쪽 꼬리가 기준선보다 위로 벗어남
중앙부: 기준선과 비교적 잘 일치

F-통계량

집단 간 분산 / 집단 내 분산
값이 클수록 집단 간 차이가 뚜렸하다.

등분산성 검사

Levene 검정(Levene's test)

1. 목적과 개념

두 개 이상 그룹의 분산 동질성(등분산성) 검정
t-검정이나 ANOVA 수행 전 등분산성 가정을 확인하는 데 사용
귀무가설: 모든 그룹의 분산이 동일하다

3. 해석 방법

p-value < 0.05: 등분산성 가정 위배
p-value ≥ 0.05: 등분산성 가정 만족

4. 장점

정규성 가정에 덜 민감
여러 그룹 동시 비교 가능
비교적 강건한 검정 방법

5. 주의사항

표본 크기가 작을 때는 검정력이 낮을 수 있음
매우 큰 표본에서는 작은 분산 차이도 유의미하게 나타날 수 있음
심각한 정규성 위반 시 결과 해석에 주의 필요

저작자표시 비영리 변경금지 (새창열림)

'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글

[1/21] 데이터 분석을 위한 통계학 입문_4회차 (0)	2025.01.21
[1/20] 데이터 분석을 위한 통계학 입문_3회차 (0)	2025.01.21
통계학 기초 복습 ① (0)	2025.01.20
통게학 기초 6주차 (0)	2025.01.20
통계학 기초 5주차 (2)	2025.01.20

현재글[1/17] 데이터 분석을 위한 통계학 입문_2회차

이지은님의 블로그

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

이지은님의 블로그

[1/17] 데이터 분석을 위한 통계학 입문_2회차

'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글

'내일배움캠프_QAQC 1기/통계학 기초'의 다른글

티스토리툴바

[1/17] 데이터 분석을 위한 통계학 입문_2회차

'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글

'내일배움캠프_QAQC 1기/통계학 기초'의 다른글

관련글

티스토리툴바