내일배움캠프_QAQC 1기/통계학 기초

[01/16]데이터 분석을 위한 통계학 입문_1회차

이지응:) 2025. 1. 16. 19:36

자료 : [통계] 데이터 분석을 위한 통계학 입문 1

 

 

프로젝트 관련 피드백

 

  • 데이터 분석 5단계를 지켜야 협업에 유리
  • 팀프로젝트 진행할 때 가설을 여러 개 설정하여 각자 가설에 맞는 데이터 분석 진행
  • 진행하다가 중간에 브리핑 하는 시간(시각화, 결론, 인사이트) 갖고 다시 분석을 반복
  • 새로운 관점으로 볼 수 있게 되어 막힌 부분 해결할 수 있음

 

  • 부트캠프의 특성상 데이터 수집 과정이 없음
  • 따라서 전체 데이터를 시각화하여 방향성을 잡고 가설을 세워야 함

 

생산/제조 분야에서 문제정의와 통계적 문제 해결

  • 두 집단의 비율(결함률) 비교: 이항자료 2표본 비율 검정, 카이제곱 검정
  • 두 집단(공정)의 분산 비교: F-test, Levene’s test
  • 평균이 특정 값과 다른지(한 집단): 일표본 t-검정
  • 3개 이상 집단의 평균 비교: 일원분산분석(One-way ANOVA)
  • 두 집단의 평균 비교(연속형, 독립 표본): 독립표본 t-검정
  • 근무 연차(연속 변수) vs 생산성: 상관분석, 회귀분석

통계학 과정 끝나면 보고 모델 선택할 수 있어야 함!!

 

 

EX) 한 공장에서 다른 라인에서 생산된 두 가지 제품 차이가 있을까?

 

  • 핵심 질문: 두 제품 간 불량(결함) 비율이 동일한가, 혹은 다른가?
  • 데이터 형태 : 불량(1) / 정상(0)과 같은 범주형(이항) 데이터
  • 분석 기법:
    • 이항자료 2표본 비율 검정(two-proportion z-test)
      • 예: 제품 A(불량 개수/전체 개수), 제품 B(불량 개수/전체 개수)를 각각 측정 후 두 비율이 다른지 검정
    • 카이제곱 검정(Chi-square test)
      • 두 제품에 대한 결함 여부를 교차표( contingency table ) 형식으로 구성하여 검정
  • 주의 사항: 표본 크기가 너무 작을 경우에는 정확 검정(Fisher’s Exact Test)을 고려

 

EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?

  • 핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
  • 데이터 형태: 공급처별로 측정된 연속형 품질 지표
  • 분석 기법:
    • 일원분산분석(One-way ANOVA)
      • 세 그룹(A, B, C) 이상의 평균 비교 시 사용
      • 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
    • 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
  • 주의 사항:
    • 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
    • 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려

 

EX) 제품 생산 시 사용하는 원재료의 공급처에 따른 품질 차이가 있는가?

  • 핵심 질문: 원재료 공급처가 여러 곳(예: A, B, C)일 때, 최종 제품 품질(연속형)이 동일한가 다른가?
  • 데이터 형태: 공급처별로 측정된 연속형 품질 지표
  • 분석 기법:
    • 일원분산분석(One-way ANOVA)
      • 세 그룹(A, B, C) 이상의 평균 비교 시 사용
      • 유의미한 차이가 있다면 사후검정(Post-hoc test)으로 어떤 그룹 간 차이가 있는지 확인
    • 2개 공급처만 비교할 경우: 두 집단 t-검정(two-sample t-test)
  • 주의 사항:
    • 정규성 및 등분산성 가정에 유의(Shapiro-Wilk, Levene’s test)
    • 가정 충족이 어렵다면 비모수 검정(Kruskal-Wallis test) 고려
품질관리에는 “생산 공정에서 발생하는 변동을 체계적으로 분석·해석”하는 역량, 즉 통계학적 기반이 요구됨

 

품질 분석에서 자주 접하는 데이터 유형

 

데이터 종류 개념 예시
수치형 숫자로 표현 가능한 모든 데이터(연속형+이산형) 제품 무게, 공정 속도, 생산량 등
연속형 특정 구간 안에서 소수점 포함해 어떤 값이든 가능 제품 무게(kg), 길이(mm), 온도(℃)
이산형 정수 값만 의미 (소수점 X) 하루 불량 발생 건수, 완제품 개수
범주형 특정 범주 안에서만 데이터 존재(이름·값) 불량 원인 분류, A/B/C 등급 등
이진형 범주형 중 두 가지 값 (0/1, 예/아니오 등)만 존재 합격/불합격, 정상/이상, 예/아니오
순서형 범주형이지만 값들 사이에 분명한 순위가 있음 1등/2등/3등, 우수/보통/미흡 등

 

숫자에 의미가 있냐/ 없냐로 수치/범주 생각하면 됨

ex) 사번은 범주형

 

데이터 종류를 분류해야 하는 이유

  • 데이터의 생김새에 따라 (수치형, 범주형 등) 시각화·해석·적용 통계모델이 달라짐
  • Python 등에서 라이브러리 함수를 적용할 때, 데이터 유형에 따른 함수를 구분해 써야 함

 

변수 개수에 따른 통계 분석

 

1. 일변량 분석 (변수 1개)

  • 기술 통계분석: 평균, 중앙값, 표준편차 등
  • 히스토그램: 제품 치수, 경도 등을 히스토그램으로 시각화 (분포 확인)

2. 이변량 분석 (변수 2개)

  • 상관분석: 품질 특성 2개(온도와 강도 등)의 상관관계
  • 독립표본 t-검정: 두 그룹 간 평균 비교(예: 생산라인 간 제품 품질 차이)
  • 카이제곱 검정: 범주형 변수 간 독립성 검정(원자재 공급업체 vs. 불량 유형 등)

3. 다변량 분석 (변수 3개 이상)

  • 군집분석: 불량 유형·특성 기반으로 그룹화
  • 회귀분석: 품질 지표와 공정 변수를 연결
  • 요인분석: 데이터 차원 축소, 주요 영향 요인 도출

 

정규분포(Normal Distribution)

  • 평균을 중심으로 좌우 대칭을 이루며, 종 모양으로 나타나는 분포
  • 특징
    1. 평균을 기준으로 좌우가 대칭
    2. 곡선 아래 면적(확률)의 합 = 1
    3. 평균, 분산(표준편차)에 따라 모양이 달라짐
    4. 평균=0, 표준편차=1인 경우를 “표준정규분포”라고 함
  • 표준화(standardization)
    • 정규분포를 평균 0, 표준편차 1인 형태로 변환
    • (원래 데이터 - 평균) / 표준편차 로 계산 → Z-점수
    • 공정능력지수 계산이나 머신러닝에서 변수 스케일이 큰 경우를 맞춰줄 때 유용

정규분포 외에 이산확률분포, 연속 확률 분포에 대해 따로 공부하는 것을 추천하심

 

신뢰구간(Confidence Interval)과 신뢰수준

신뢰구간(Confidence Interval)

  • 표본평균 ± 오차범위로 표현
  • 표준오차와 t-분포(또는 Z-분포) 등을 이용해 계산

신뢰수준(Confidence Level)

  • 95%나 99%가 일반적
  • 신뢰수준이 올라가면 구간이 넓어져 정확성은 높지만 예측 범위가 모호해짐
  • 실무에선 95%를 많이 사용(신뢰수준이 무조건 높다고 좋은 게 아님)

품질 통계 관점

  1. 공정 평균 추정: 샘플 데이터만으로 모평균(진짜 평균)을 추정
  2. 불량률 추정: “불량률이 2% ~ 5% 사이” 등으로 범위를 제시
  3. 시료 개수 결정: 신뢰구간을 좁히려면, 시료 수를 늘리거나 공정 변동을 줄여야 함

 

귀무가설과 대립가설

귀무가설(H0)

  • “현재 상황(기존 가정, 차이가 없다 등)이 맞다”는 가정
  • 통계검정에서 **‘특별한 변화나 차이가 없다’**라는 내용을 담는 경우가 많습니다.
  • 예) “두 그룹의 평균은 차이가 없다”, “이 공정의 결함률은 5%이다” 등

대립가설(H1)

  • “귀무가설과는 반대되는 주장”
  • 즉, “새로운 변화나 차이가 존재한다” 또는 “기준값과 다르다”라는 내용을 포함합니다.
  • 예) “두 그룹의 평균은 차이가 있다”, “이 공정의 결함률은 5%가 아니다” 등

 

  • 귀무가설(H0)은 “변화 없다” (기존 상태 유지)
  • 대립가설(H1)은 “변화(차이) 있다” (혹은 기존 값과 다르다)

 

P-value(유의 확률)

  • 귀무가설이 맞다고 가정했을 때, 지금처럼 (혹은 더 극단적인) 데이터를 관측할 확률이 얼마인가
  • p-value가 작다는 의미
    • 귀무가설이 맞다고 봤을 때, 관측된 결과가 나타날 확률이 매우 낮음 -> "그럼 귀무가설이 잘못됐을 확률이 높지 않을까?"
    • 보통 통계에서 p-value가 작으면 귀무가설을 기각하는 근거로 삼음

 

유의수준 (α)과 p-value 비교

  • 유의수준(α, Alpha): 연구자가 정하는 기준선(일반적으로 0.05 또는 0.01
    • “p-value가 α보다 작으면, 귀무가설을 기각한다.”
    • 즉, 5% 이하(또는 1% 이하)의 낮은 확률로만 일어날 사건이 관측되었으니, “이건 우연이라기에는 너무 작다 → 귀무가설에 의심이 크다”로 판단
  • p-value: 실제 데이터에서 계산된 값(통계량)
    • “현재 결과가 나타날 확률”을 의미
p-value ≤ α → “귀무가설 기각(대립가설 채택 가능성)”
p-value > α → “귀무가설 채택(통계적으로 차이를 발견하지 못함)”

 

 

예시

  1. 두 그룹 평균 비교 (독립표본 t-검정)
    • 귀무가설(H0): “두 그룹의 평균은 동일하다(차이가 없다).”
    • 대립가설(H1): “두 그룹의 평균은 다르다(차이가 있다).”
    • 실제 데이터를 통해 t-값(검정 통계량) 계산 → p-value = 0.03이 나옴
    • 유의수준 α=0.05라고 하면, p-value(0.03) < 0.05 → 귀무가설을 기각 → “두 그룹 평균은 통계적으로 유의미한 차이가 있다.”
  2. 공정 결함률 검정
    • 귀무가설(H0): “이 공정의 결함률은 5%이다.”
    • 대립가설(H1): “이 공정의 결함률은 5%가 아니다(더 높거나 낮다).”
    • 표본 데이터(결함 개수)로부터 p-value가 0.10이라고 계산
    • α=0.05로 설정 시, p-value(0.10) > 0.05 → “귀무가설을 기각할 근거가 없다” → 결함률이 5%라는 가정을 통계적으로 뒤집을 수 없다.

 

'내일배움캠프_QAQC 1기 > 통계학 기초' 카테고리의 다른 글

통계학 기초 5주차  (2) 2025.01.20
통계학 기초 4주차  (0) 2025.01.17
통계학 기초 3주차  (0) 2025.01.17
통계학 2주차  (0) 2025.01.16
통계학 1주차  (0) 2025.01.16