프로젝트 관련 피드백

- 데이터 분석 5단계를 지켜야 협업에 유리
- 팀프로젝트 진행할 때 가설을 여러 개 설정하여 각자 가설에 맞는 데이터 분석 진행
- 진행하다가 중간에 브리핑 하는 시간(시각화, 결론, 인사이트) 갖고 다시 분석을 반복
- 새로운 관점으로 볼 수 있게 되어 막힌 부분 해결할 수 있음
- 부트캠프의 특성상 데이터 수집 과정이 없음
- 따라서 전체 데이터를 시각화하여 방향성을 잡고 가설을 세워야 함
생산/제조 분야에서 문제정의와 통계적 문제 해결
- 두 집단의 비율(결함률) 비교: 이항자료 2표본 비율 검정, 카이제곱 검정
- 두 집단(공정)의 분산 비교: F-test, Levene’s test
- 평균이 특정 값과 다른지(한 집단): 일표본 t-검정
- 3개 이상 집단의 평균 비교: 일원분산분석(One-way ANOVA)
- 두 집단의 평균 비교(연속형, 독립 표본): 독립표본 t-검정
- 근무 연차(연속 변수) vs 생산성: 상관분석, 회귀분석
통계학 과정 끝나면 보고 모델 선택할 수 있어야 함!!
EX) 한 공장에서 다른 라인에서 생산된 두 가지 제품 차이가 있을까?
- 핵심 질문: 두 제품 간 불량(결함) 비율이 동일한가, 혹은 다른가?
- 데이터 형태 : 불량(1) / 정상(0)과 같은 범주형(이항) 데이터
- 분석 기법:
- 이항자료 2표본 비율 검정(two-proportion z-test)
- 예: 제품 A(불량 개수/전체 개수), 제품 B(불량 개수/전체 개수)를 각각 측정 후 두 비율이 다른지 검정
- 카이제곱 검정(Chi-square test)
- 두 제품에 대한 결함 여부를 교차표( contingency table ) 형식으로 구성하여 검정
- 이항자료 2표본 비율 검정(two-proportion z-test)
- 주의 사항: 표본 크기가 너무 작을 경우에는 정확 검정(Fisher’s Exact Test)을 고려
EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?
- 핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
- 데이터 형태: 공급처별로 측정된 연속형 품질 지표
- 분석 기법:
- 일원분산분석(One-way ANOVA)
- 세 그룹(A, B, C) 이상의 평균 비교 시 사용
- 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
- 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
- 일원분산분석(One-way ANOVA)
- 주의 사항:
- 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
- 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려
EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?
- 핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
- 데이터 형태: 공급처별로 측정된 연속형 품질 지표
- 분석 기법:
- 일원분산분석(One-way ANOVA)
- 세 그룹(A, B, C) 이상의 평균 비교 시 사용
- 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
- 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
- 일원분산분석(One-way ANOVA)
- 주의 사항:
- 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
- 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려
품질관리에는 “생산 공정에서 발생하는 변동을 체계적으로 분석·해석”하는 역량, 즉 통계학적 기반이 요구됨
품질 분석에서 자주 접하는 데이터 유형

| 데이터 종류 | 개념 | 예시 |
| 수치형 | 숫자로 표현 가능한 모든 데이터(연속형+이산형) | 제품 무게, 공정 속도, 생산량 등 |
| 연속형 | 특정 구간 안에서 소수점 포함해 어떤 값이든 가능 | 제품 무게(kg), 길이(mm), 온도(℃) |
| 이산형 | 정수 값만 의미 (소수점 X) | 하루 불량 발생 건수, 완제품 개수 |
| 범주형 | 특정 범주 안에서만 데이터 존재(이름·값) | 불량 원인 분류, A/B/C 등급 등 |
| 이진형 | 범주형 중 두 가지 값 (0/1, 예/아니오 등)만 존재 | 합격/불합격, 정상/이상, 예/아니오 |
| 순서형 | 범주형이지만 값들 사이에 분명한 순위가 있음 | 1등/2등/3등, 우수/보통/미흡 등 |
숫자에 의미가 있냐/ 없냐로 수치/범주 생각하면 됨
ex) 사번은 범주형
데이터 종류를 분류해야 하는 이유
- 데이터의 생김새에 따라 (수치형, 범주형 등) 시각화·해석·적용 통계모델이 달라짐
- Python 등에서 라이브러리 함수를 적용할 때, 데이터 유형에 따른 함수를 구분해 써야 함
변수 개수에 따른 통계 분석
1. 일변량 분석 (변수 1개)
- 기술 통계분석: 평균, 중앙값, 표준편차 등
- 히스토그램: 제품 치수, 경도 등을 히스토그램으로 시각화 (분포 확인)
2. 이변량 분석 (변수 2개)
- 상관분석: 품질 특성 2개(온도와 강도 등)의 상관관계
- 독립표본 t-검정: 두 그룹 간 평균 비교(예: 생산라인 간 제품 품질 차이)
- 카이제곱 검정: 범주형 변수 간 독립성 검정(원자재 공급업체 vs. 불량 유형 등)
3. 다변량 분석 (변수 3개 이상)
- 군집분석: 불량 유형·특성 기반으로 그룹화
- 회귀분석: 품질 지표와 공정 변수를 연결
- 요인분석: 데이터 차원 축소, 주요 영향 요인 도출
정규분포(Normal Distribution)
- 평균을 중심으로 좌우 대칭을 이루며, 종 모양으로 나타나는 분포
- 특징
- 평균을 기준으로 좌우가 대칭
- 곡선 아래 면적(확률)의 합 = 1
- 평균, 분산(표준편차)에 따라 모양이 달라짐
- 평균=0, 표준편차=1인 경우를 “표준정규분포”라고 함
- 표준화(standardization)
- 정규분포를 평균 0, 표준편차 1인 형태로 변환
- (원래 데이터 - 평균) / 표준편차 로 계산 → Z-점수
- 공정능력지수 계산이나 머신러닝에서 변수 스케일이 큰 경우를 맞춰줄 때 유용
정규분포 외에 이산확률분포, 연속 확률 분포에 대해 따로 공부하는 것을 추천하심
신뢰구간(Confidence Interval)과 신뢰수준

신뢰구간(Confidence Interval)
- 표본평균 ± 오차범위로 표현
- 표준오차와 t-분포(또는 Z-분포) 등을 이용해 계산
신뢰수준(Confidence Level)
- 95%나 99%가 일반적
- 신뢰수준이 올라가면 구간이 넓어져 정확성은 높지만 예측 범위가 모호해짐
- 실무에선 95%를 많이 사용(신뢰수준이 무조건 높다고 좋은 게 아님)
품질 통계 관점
- 공정 평균 추정: 샘플 데이터만으로 모평균(진짜 평균)을 추정
- 불량률 추정: “불량률이 2% ~ 5% 사이” 등으로 범위를 제시
- 시료 개수 결정: 신뢰구간을 좁히려면, 시료 수를 늘리거나 공정 변동을 줄여야 함
귀무가설과 대립가설
귀무가설(H0)
- “현재 상황(기존 가정, 차이가 없다 등)이 맞다”는 가정
- 통계검정에서 **‘특별한 변화나 차이가 없다’**라는 내용을 담는 경우가 많습니다.
- 예) “두 그룹의 평균은 차이가 없다”, “이 공정의 결함률은 5%이다” 등
대립가설(H1)
- “귀무가설과는 반대되는 주장”
- 즉, “새로운 변화나 차이가 존재한다” 또는 “기준값과 다르다”라는 내용을 포함합니다.
- 예) “두 그룹의 평균은 차이가 있다”, “이 공정의 결함률은 5%가 아니다” 등
- 귀무가설(H0)은 “변화 없다” (기존 상태 유지)
- 대립가설(H1)은 “변화(차이) 있다” (혹은 기존 값과 다르다)
P-value(유의 확률)
- 귀무가설이 맞다고 가정했을 때, 지금처럼 (혹은 더 극단적인) 데이터를 관측할 확률이 얼마인가
- p-value가 작다는 의미
- 귀무가설이 맞다고 봤을 때, 관측된 결과가 나타날 확률이 매우 낮음 -> "그럼 귀무가설이 잘못됐을 확률이 높지 않을까?"
- 보통 통계에서 p-value가 작으면 귀무가설을 기각하는 근거로 삼음
유의수준 (α)과 p-value 비교
- 유의수준(α, Alpha): 연구자가 정하는 기준선(일반적으로 0.05 또는 0.01
- “p-value가 α보다 작으면, 귀무가설을 기각한다.”
- 즉, 5% 이하(또는 1% 이하)의 낮은 확률로만 일어날 사건이 관측되었으니, “이건 우연이라기에는 너무 작다 → 귀무가설에 의심이 크다”로 판단
- p-value: 실제 데이터에서 계산된 값(통계량)
- “현재 결과가 나타날 확률”을 의미
p-value ≤ α → “귀무가설 기각(대립가설 채택 가능성)”
p-value > α → “귀무가설 채택(통계적으로 차이를 발견하지 못함)”
예시
- 두 그룹 평균 비교 (독립표본 t-검정)
- 귀무가설(H0): “두 그룹의 평균은 동일하다(차이가 없다).”
- 대립가설(H1): “두 그룹의 평균은 다르다(차이가 있다).”
- 실제 데이터를 통해 t-값(검정 통계량) 계산 → p-value = 0.03이 나옴
- 유의수준 α=0.05라고 하면, p-value(0.03) < 0.05 → 귀무가설을 기각 → “두 그룹 평균은 통계적으로 유의미한 차이가 있다.”
- 공정 결함률 검정
- 귀무가설(H0): “이 공정의 결함률은 5%이다.”
- 대립가설(H1): “이 공정의 결함률은 5%가 아니다(더 높거나 낮다).”
- 표본 데이터(결함 개수)로부터 p-value가 0.10이라고 계산
- α=0.05로 설정 시, p-value(0.10) > 0.05 → “귀무가설을 기각할 근거가 없다” → 결함률이 5%라는 가정을 통계적으로 뒤집을 수 없다.
'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글
| 통계학 기초 5주차 (2) | 2025.01.20 |
|---|---|
| 통계학 기초 4주차 (0) | 2025.01.17 |
| 통계학 기초 3주차 (0) | 2025.01.17 |
| 통계학 2주차 (0) | 2025.01.16 |
| 통계학 1주차 (0) | 2025.01.16 |