강의 자료 : [통계] 데이터 분석을 위한 통계학 입문 3
실습 자료 : ANOVA.ipynb - Colab
ANOVA 분석 (Analysis of Variance, 분산분석)
- 세 개 이상의 집단 평균 차이를 동시에 비교하는 통계기법
- 집단 간 평균 차이를 분산을 이용해서 분석
- 일원분산분석 (One-way ANOVA): 한 가지 독립변수 (요인)에 여러 수준이 존재하고, 종속변수가 연속형인 경우
가정
ANOVA는 다음과 같은 가정을 만족해야 신뢰할 수 있는 결과를 얻을 수 있음
- 정규성 (Normality): 각 집단의 종속변수가 정규분포를 따른다고 가정합니다.
- 등분산성 (Homogeneity of variance): 각 집단의 분산이 동일하다고 가정합니다. (Bartlett test, Levene test 등으로 확인)
- 독립성 (Independence): 표본들이 서로 독립적이어야 합니다. (한 대상이 여러 집단에 중복 참여 X)
가정 위배 시: 정규성이나 등분산성 가정이 크게 위배된다면, Welch ANOVA (등분산성 미가정) 나 Kruskal-Wallis 검정 (비모수적 대안)을 고려할 수 있습니다.
F 통계량
분산분석의 핵심 지표
집단 간 변동과 집단 내 변동의 비율로 계산
F = MSB / MSE
- MSB (Between Mean Square): SSB / (k - 1)
- MSE (Error Mean Square): SSE / (N - k)
- k: 집단 수
- N: 전체 표본 수
- 귀무가설 (H_0): 모든 집단의 평균은 동일하다.
- 대립가설 (H_1): 적어도 한 집단의 평균은 다르다.
- 그룹 간 차이가 크면 MSB가 커져서 F 값이 커지고, 귀무가설을 기각 (집단 평균 차이 존재) 하게 됩니다.
- F 값이 크면 귀무가설 기각, 대립가설 채택
사후 검정 (Post-hoc tests)
주요 기법
- Tukey HSD (Test): 등분산 가정이 충족되고, 표본 크기도 비슷한 경우 자주 사용. 직관적이고 쉬운 해석이 가능
- Bonferroni: 쌍별 t-검정에 대한 유의수준 보정을 적용. 보수적인 방법
- Scheffé: 보수적인 방법으로, 표본 크기가 다르거나 가정이 조금 깨져도 적용 가능
사후검정 결과 해석
어떤 두 집단 간 평균 차이가 p < 0.05 로 유의하다면, 그 두 집단 사이에 통계적으로 의미 있는 차이가 있다고 결론 내립니다.
Tukey HSD 검정
- 분산 분석 (ANOVA) 의 사후 분석 (Post-hoc test) 방법으로, ANOVA 에서 여러 그룹 간 평균 차이가 유의미하다고 나왔을 때, 어떤 그룹 간에 차이가 있는지 구체적으로 확인하는 데 사용
- Tukey HSD 의 주요 특징
- 다중 비교 문제 해결: ANOVA 는 여러 그룹 간 평균 차이가 있는지 여부만 알려주지만, Tukey HSD 는 모든 가능한 그룹 쌍을 비교하면서 다중 비교로 인한 오류를 제어
- 균등한 표본 크기 및 분산 가정: Tukey HSD 는 각 그룹의 분산이 동일하고 (등분산성), 표본 크기가 비슷할 때 더욱 신뢰할 수 있는 결과를 제공
- 유의수준 조정: 다중 비교에 맞게 유의수준 (α) 을 조정하여 신뢰도를 높임
- Tukey HSD 의 공식

카이제곱 검정
- 범주형 자료 간의 관계나 분포 적합도를 검정하는 데 사용되는 통계 기법
- 적합도 검정
- 독립성 검정
- 동질성 검정
'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글
| [1/22] 데이터 분석을 위한 통계학 입문_5회차 (0) | 2025.01.22 |
|---|---|
| [1/21] 데이터 분석을 위한 통계학 입문_4회차 (0) | 2025.01.21 |
| [1/17] 데이터 분석을 위한 통계학 입문_2회차 (0) | 2025.01.20 |
| 통계학 기초 복습 ① (0) | 2025.01.20 |
| 통게학 기초 6주차 (0) | 2025.01.20 |