어려웠던 용어를 다시 정리해 보고자 합니다.
신뢰구간 (Confidence Interval)
모집단의 평균이 특정 범위 내에 있을 것이라는 확률
가설검정 (Hypothesis Testing)
모집단에 대한 가설을 검증하기 위해 사용
귀무가설과 대립가설이 있음
- 귀무가설(H0)
- 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설(변화가 없다, 효과가 없다 등)
- 대립가설(H1)
- 반대 가설로 주장하는 바를 나타내는 가설(변화가 있다, 효과가 있다 등)
- EX) 새로운 교육 프로그램이 학생들의 성적에 영향을 미치는지 알고 싶다면, 귀무가설은 "프로그램이 성적에 영향을 미치지 않는다"이고, 대립가설은 "프로그램이 성적에 영향을 미친다"임
분석 방법
1. 위치 추정
데이터의 중심 확인. 평균, 중앙값
2. 변이 추정
데이터들이 서로 얼마나 다른지 확인. 분산, 표준편차, 범위
3. 데이터 분포 탐색
데이터 값들이 어떻게 이루어져 있는지 확인. 히그토그램, box plot
4. 이진 데이터와 범주 데이터 탐색
데이터들이 서로 얼마나 다른지 확인. 파이차트, 막대그래프
5. 상관관계
데이터들끼리 서로 관련이 있는지 확인
6. 다변량 분석
여러 변수 간의 관계 분석
표본오차 (Sampling Error)
표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이
신뢰구간 (Confidence Interval)
모집단의 특정 파라미터에 대해 추정된 값이 포함될 것으로 기대되는 범위
분포의 종류
1. 정규분포
2. 긴 꼬리 분포
3. 스튜던트 t 분포
4. 카이제곱분포
5. 이항분포
6. 푸아송 분포
분포 선택
- 데이터 수가 충분하다 → (무조건) 정규분포
- 데이터 수가 작다 → 스튜던트 t 분포
- 일부 데이터가 전체적으로 큰 영향을 미친다 → 롱 테일 분포 (파레토 분포)
- 범주형 데이터의 독립성 검정이나 적합도 검정 → 카이 제곱 분포
- 결과가 두 개(성공 or 실패)만 나오는 상황 → 이항 분포
- 특정 시간, 공간에서 발생하는 사건 → 푸아송 분포
p 값
- 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- 일반적으로 p-값이 유의수준(α)보다 작으면 귀무가설을 기각
- 유의수준으로 많이 사용하는 값이 0.05
유의수준 (α)과 p-value 비교
p-value ≤ α → “귀무가설 기각(대립가설 채택 가능성)”
p-value > α → “귀무가설 채택(통계적으로 차이를 발견하지 못함)”
가설검정 단계
1. 귀무가설(H0)과 대립가설(H1) 설정
2. 유의수준(α) 결정(일반적으로 0.05)
3. 검정통계량 계산
4. p -값과 유의수준 비교
5. 결론 도출
가설검정 종류
1. t 검정
2. 다중검정
3. 카이제곱검정
4. ANOVA(F-검정)
t 검정
- 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
- 독립표본 t 검정과 대응표본 t 검정이 있음
- 독립표본 t 검정 : 독립된 두 그룹의 평균을 비교
- 대응표본 t 검정 : 동일한 그룹의 사전/사후 평균을 비교
카이제곱검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)
- 두 범주형 변수 간의 독립성을 검정(독립성 검정
- 적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- EX) 주사위의 각 면이 동일한 확률로 나오는지 검정
- 독립성 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- EX) 성별과 직업 만족도 간의 독립성 검정
ANOVA(F-검정)
2개 이상의 집단 간 평균 차이를 검정하는 통계적 기법
분산 분석의 기본 아이디어 : 집단 간 변동과 집단 내 변동을 비교
제 1종 오류
귀무가설이 참인데 기각하는 오류
제 2종 오류
귀무가설이 거짓인데 기각하지 않는 오류
'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글
| [1/20] 데이터 분석을 위한 통계학 입문_3회차 (0) | 2025.01.21 |
|---|---|
| [1/17] 데이터 분석을 위한 통계학 입문_2회차 (0) | 2025.01.20 |
| 통게학 기초 6주차 (0) | 2025.01.20 |
| 통계학 기초 5주차 (2) | 2025.01.20 |
| 통계학 기초 4주차 (0) | 2025.01.17 |