내일배움캠프_QAQC 1기/통계학 기초

[1/20] 데이터 분석을 위한 통계학 입문_3회차

이지응:) 2025. 1. 21. 15:19

 

강의 자료 : [통계] 데이터 분석을 위한 통계학 입문 3

실습 자료 : ANOVA.ipynb - Colab

 

ANOVA 분석 (Analysis of Variance, 분산분석)

  • 세 개 이상의 집단 평균 차이를 동시에 비교하는 통계기법
  • 집단 간 평균 차이를 분산을 이용해서 분석
  • 일원분산분석 (One-way ANOVA): 한 가지 독립변수 (요인)에 여러 수준이 존재하고, 종속변수가 연속형인 경우

가정

ANOVA는 다음과 같은 가정을 만족해야 신뢰할 수 있는 결과를 얻을 수 있음

  • 정규성 (Normality): 각 집단의 종속변수가 정규분포를 따른다고 가정합니다.
  • 등분산성 (Homogeneity of variance): 각 집단의 분산이 동일하다고 가정합니다. (Bartlett test, Levene test 등으로 확인)
  • 독립성 (Independence): 표본들이 서로 독립적이어야 합니다. (한 대상이 여러 집단에 중복 참여 X)

가정 위배 시: 정규성이나 등분산성 가정이 크게 위배된다면, Welch ANOVA (등분산성 미가정) 나 Kruskal-Wallis 검정 (비모수적 대안)을 고려할 수 있습니다.

 

F 통계량

분산분석의 핵심 지표

집단 간 변동과 집단 내 변동의 비율로 계산

F = MSB / MSE

  • MSB (Between Mean Square): SSB / (k - 1)
  • MSE (Error Mean Square): SSE / (N - k)
    • k: 집단 수
    • N: 전체 표본 수
  • 귀무가설 (H_0): 모든 집단의 평균은 동일하다.
  • 대립가설 (H_1): 적어도 한 집단의 평균은 다르다.
  • 그룹 간 차이가 크면 MSB가 커져서 F 값이 커지고, 귀무가설을 기각 (집단 평균 차이 존재) 하게 됩니다.
  • F 값이 크면 귀무가설 기각, 대립가설 채택

사후 검정 (Post-hoc tests)

주요 기법

  • Tukey HSD (Test): 등분산 가정이 충족되고, 표본 크기도 비슷한 경우 자주 사용. 직관적이고 쉬운 해석이 가능
  • Bonferroni: 쌍별 t-검정에 대한 유의수준 보정을 적용. 보수적인 방법
  • Scheffé: 보수적인 방법으로, 표본 크기가 다르거나 가정이 조금 깨져도 적용 가능

사후검정 결과 해석

어떤 두 집단 간 평균 차이가 p < 0.05 로 유의하다면, 그 두 집단 사이에 통계적으로 의미 있는 차이가 있다고 결론 내립니다.

 

 

Tukey HSD 검정

  • 분산 분석 (ANOVA) 의 사후 분석 (Post-hoc test) 방법으로, ANOVA 에서 여러 그룹 간 평균 차이가 유의미하다고 나왔을 때, 어떤 그룹 간에 차이가 있는지 구체적으로 확인하는 데 사용
  • Tukey HSD 의 주요 특징
    • 다중 비교 문제 해결: ANOVA 는 여러 그룹 간 평균 차이가 있는지 여부만 알려주지만, Tukey HSD 는 모든 가능한 그룹 쌍을 비교하면서 다중 비교로 인한 오류를 제어
    • 균등한 표본 크기 및 분산 가정: Tukey HSD 는 각 그룹의 분산이 동일하고 (등분산성), 표본 크기가 비슷할 때 더욱 신뢰할 수 있는 결과를 제공
    • 유의수준 조정: 다중 비교에 맞게 유의수준 (α) 을 조정하여 신뢰도를 높임
  • Tukey HSD 의 공식

 

 

카이제곱 검정

  • 범주형 자료 간의 관계나 분포 적합도를 검정하는 데 사용되는 통계 기법
  • 적합도 검정
  • 독립성 검정
  • 동질성 검정