[01/16]데이터 분석을 위한 통계학 입문

내일배움캠프_QAQC 1기/통계학 기초

[01/16]데이터 분석을 위한 통계학 입문_1회차

이지응:) 2025. 1. 16. 19:36

자료 : [통계] 데이터 분석을 위한 통계학 입문 1

프로젝트 관련 피드백

데이터 분석 5단계를 지켜야 협업에 유리
팀프로젝트 진행할 때 가설을 여러 개 설정하여 각자 가설에 맞는 데이터 분석 진행
진행하다가 중간에 브리핑 하는 시간(시각화, 결론, 인사이트) 갖고 다시 분석을 반복
새로운 관점으로 볼 수 있게 되어 막힌 부분 해결할 수 있음

부트캠프의 특성상 데이터 수집 과정이 없음
따라서 전체 데이터를 시각화하여 방향성을 잡고 가설을 세워야 함

생산/제조 분야에서 문제정의와 통계적 문제 해결

두 집단의 비율(결함률) 비교: 이항자료 2표본 비율 검정, 카이제곱 검정
두 집단(공정)의 분산 비교: F-test, Levene’s test
평균이 특정 값과 다른지(한 집단): 일표본 t-검정
3개 이상 집단의 평균 비교: 일원분산분석(One-way ANOVA)
두 집단의 평균 비교(연속형, 독립 표본): 독립표본 t-검정
근무 연차(연속 변수) vs 생산성: 상관분석, 회귀분석

통계학 과정 끝나면 보고 모델 선택할 수 있어야 함!!

EX) 한 공장에서 다른 라인에서 생산된 두 가지 제품 차이가 있을까?

핵심 질문: 두 제품 간 불량(결함) 비율이 동일한가, 혹은 다른가?
데이터 형태 : 불량(1) / 정상(0)과 같은 범주형(이항) 데이터
분석 기법:
- 이항자료 2표본 비율 검정(two-proportion z-test)
  - 예: 제품 A(불량 개수/전체 개수), 제품 B(불량 개수/전체 개수)를 각각 측정 후 두 비율이 다른지 검정
- 카이제곱 검정(Chi-square test)
  - 두 제품에 대한 결함 여부를 교차표( contingency table ) 형식으로 구성하여 검정
주의 사항: 표본 크기가 너무 작을 경우에는 정확 검정(Fisher’s Exact Test)을 고려

EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?

핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
데이터 형태: 공급처별로 측정된 연속형 품질 지표
분석 기법:
- 일원분산분석(One-way ANOVA)
  - 세 그룹(A, B, C) 이상의 평균 비교 시 사용
  - 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
- 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
주의 사항:
- 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
- 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려

EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?

핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
데이터 형태: 공급처별로 측정된 연속형 품질 지표
분석 기법:
- 일원분산분석(One-way ANOVA)
  - 세 그룹(A, B, C) 이상의 평균 비교 시 사용
  - 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
- 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
주의 사항:
- 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
- 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려

품질관리에는 “생산 공정에서 발생하는 변동을 체계적으로 분석·해석”하는 역량, 즉 통계학적 기반이 요구됨

품질 분석에서 자주 접하는 데이터 유형

데이터 종류	개념	예시
수치형	숫자로 표현 가능한 모든 데이터(연속형+이산형)	제품 무게, 공정 속도, 생산량 등
연속형	특정 구간 안에서 소수점 포함해 어떤 값이든 가능	제품 무게(kg), 길이(mm), 온도(℃)
이산형	정수 값만 의미 (소수점 X)	하루 불량 발생 건수, 완제품 개수
범주형	특정 범주 안에서만 데이터 존재(이름·값)	불량 원인 분류, A/B/C 등급 등
이진형	범주형 중 두 가지 값 (0/1, 예/아니오 등)만 존재	합격/불합격, 정상/이상, 예/아니오
순서형	범주형이지만 값들 사이에 분명한 순위가 있음	1등/2등/3등, 우수/보통/미흡 등

숫자에 의미가 있냐/ 없냐로 수치/범주 생각하면 됨

ex) 사번은 범주형

데이터 종류를 분류해야 하는 이유

데이터의 생김새에 따라 (수치형, 범주형 등) 시각화·해석·적용 통계모델이 달라짐
Python 등에서 라이브러리 함수를 적용할 때, 데이터 유형에 따른 함수를 구분해 써야 함

변수 개수에 따른 통계 분석

1. 일변량 분석 (변수 1개)

기술 통계분석: 평균, 중앙값, 표준편차 등
히스토그램: 제품 치수, 경도 등을 히스토그램으로 시각화 (분포 확인)

2. 이변량 분석 (변수 2개)

상관분석: 품질 특성 2개(온도와 강도 등)의 상관관계
독립표본 t-검정: 두 그룹 간 평균 비교(예: 생산라인 간 제품 품질 차이)
카이제곱 검정: 범주형 변수 간 독립성 검정(원자재 공급업체 vs. 불량 유형 등)

3. 다변량 분석 (변수 3개 이상)

군집분석: 불량 유형·특성 기반으로 그룹화
회귀분석: 품질 지표와 공정 변수를 연결
요인분석: 데이터 차원 축소, 주요 영향 요인 도출

정규분포(Normal Distribution)

평균을 중심으로 좌우 대칭을 이루며, 종 모양으로 나타나는 분포
특징
1. 평균을 기준으로 좌우가 대칭
2. 곡선 아래 면적(확률)의 합 = 1
3. 평균, 분산(표준편차)에 따라 모양이 달라짐
4. 평균=0, 표준편차=1인 경우를 “표준정규분포”라고 함
표준화(standardization)
- 정규분포를 평균 0, 표준편차 1인 형태로 변환
- (원래 데이터 - 평균) / 표준편차 로 계산 → Z-점수
- 공정능력지수 계산이나 머신러닝에서 변수 스케일이 큰 경우를 맞춰줄 때 유용

정규분포 외에 이산확률분포, 연속 확률 분포에 대해 따로 공부하는 것을 추천하심

신뢰구간(Confidence Interval)과 신뢰수준

신뢰구간(Confidence Interval)

표본평균 ± 오차범위로 표현
표준오차와 t-분포(또는 Z-분포) 등을 이용해 계산

신뢰수준(Confidence Level)

95%나 99%가 일반적
신뢰수준이 올라가면 구간이 넓어져 정확성은 높지만 예측 범위가 모호해짐
실무에선 95%를 많이 사용(신뢰수준이 무조건 높다고 좋은 게 아님)

품질 통계 관점

공정 평균 추정: 샘플 데이터만으로 모평균(진짜 평균)을 추정
불량률 추정: “불량률이 2% ~ 5% 사이” 등으로 범위를 제시
시료 개수 결정: 신뢰구간을 좁히려면, 시료 수를 늘리거나 공정 변동을 줄여야 함

귀무가설과 대립가설

귀무가설(H0)

“현재 상황(기존 가정, 차이가 없다 등)이 맞다”는 가정
통계검정에서 **‘특별한 변화나 차이가 없다’**라는 내용을 담는 경우가 많습니다.
예) “두 그룹의 평균은 차이가 없다”, “이 공정의 결함률은 5%이다” 등

대립가설(H1)

“귀무가설과는 반대되는 주장”
즉, “새로운 변화나 차이가 존재한다” 또는 “기준값과 다르다”라는 내용을 포함합니다.
예) “두 그룹의 평균은 차이가 있다”, “이 공정의 결함률은 5%가 아니다” 등

귀무가설(H0)은 “변화 없다” (기존 상태 유지)
대립가설(H1)은 “변화(차이) 있다” (혹은 기존 값과 다르다)

P-value(유의 확률)

귀무가설이 맞다고 가정했을 때, 지금처럼 (혹은 더 극단적인) 데이터를 관측할 확률이 얼마인가
p-value가 작다는 의미
- 귀무가설이 맞다고 봤을 때, 관측된 결과가 나타날 확률이 매우 낮음 -> "그럼 귀무가설이 잘못됐을 확률이 높지 않을까?"
- 보통 통계에서 p-value가 작으면 귀무가설을 기각하는 근거로 삼음

유의수준 (α)과 p-value 비교

유의수준(α, Alpha): 연구자가 정하는 기준선(일반적으로 0.05 또는 0.01
- “p-value가 α보다 작으면, 귀무가설을 기각한다.”
- 즉, 5% 이하(또는 1% 이하)의 낮은 확률로만 일어날 사건이 관측되었으니, “이건 우연이라기에는 너무 작다 → 귀무가설에 의심이 크다”로 판단

p-value: 실제 데이터에서 계산된 값(통계량)
- “현재 결과가 나타날 확률”을 의미

p-value ≤ α → “귀무가설 기각(대립가설 채택 가능성)”
p-value > α → “귀무가설 채택(통계적으로 차이를 발견하지 못함)”

예시

두 그룹 평균 비교 (독립표본 t-검정)
- 귀무가설(H0): “두 그룹의 평균은 동일하다(차이가 없다).”
- 대립가설(H1): “두 그룹의 평균은 다르다(차이가 있다).”
- 실제 데이터를 통해 t-값(검정 통계량) 계산 → p-value = 0.03이 나옴
- 유의수준 α=0.05라고 하면, p-value(0.03) < 0.05 → 귀무가설을 기각 → “두 그룹 평균은 통계적으로 유의미한 차이가 있다.”
공정 결함률 검정
- 귀무가설(H0): “이 공정의 결함률은 5%이다.”
- 대립가설(H1): “이 공정의 결함률은 5%가 아니다(더 높거나 낮다).”
- 표본 데이터(결함 개수)로부터 p-value가 0.10이라고 계산
- α=0.05로 설정 시, p-value(0.10) > 0.05 → “귀무가설을 기각할 근거가 없다” → 결함률이 5%라는 가정을 통계적으로 뒤집을 수 없다.

저작자표시 비영리 변경금지 (새창열림)

'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글

통계학 기초 5주차 (2)	2025.01.20
통계학 기초 4주차 (0)	2025.01.17
통계학 기초 3주차 (0)	2025.01.17
통계학 2주차 (0)	2025.01.16
통계학 1주차 (0)	2025.01.16

현재글[01/16]데이터 분석을 위한 통계학 입문_1회차

이지은님의 블로그

Today :
Yesterday :

일	월	화	수	목	금	토
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30

이지은님의 블로그