스파르타클럽 내일배움캠프 QA/QC 5기 04/15 TIL

2026. 4. 15. 20:18내일배움캠프 TIL

머신러닝의 이해와 라이브러리 기초

1. 선형회귀란?

선형회귀의 기본 아이디어

  • 두 변수(예: 몸무게와 키) 사이의 상관관계를 직선으로 표현하는 방법
  • 데이터 점들을 가장 잘 "설명"하는 직선을 찾는 것이 목표
  • 직선과 실제 데이터 점 사이의 거리를 Error(오차) 라고 정의하고, 이를 최소화하는 직선을 찾는다.

Error를 정의하는 단계별 방법

  1. 방법 1: 에러 = 실제 데이터 - 직선의 예측 값
    • 문제점: 양수와 음수가 섞여 합치면 서로 상쇄됨
  2. 방법 2: 각 Error를 제곱하여 모두 더하기
    • 음수를 양수로 만들어 상쇄 문제 해결
  3. 방법 3: 전체 에러 합을 데이터 개수로 나누기
    • 데이터가 많아질수록 에러가 자연스럽게 커지는 문제 해결

2. 선형회귀 수식

통계학에서의 선형회귀 식

  • beta_0: 편향(Bias), Y절편
  • beta_1: 회귀 계수
  • ε: 오차(에러), 모델이 설명하지 못하는 Y의 변동성

머신러닝/딥러닝에서의 선형회귀 식

  • w: 가중치 (weight)
  • b: 편향 (Bias)
  • 머신러닝/딥러닝 모델에서는 오차 항을 명시적으로 다루지 않는다.

용어 정리

  • 공통: Y는 종속 변수(결과 변수), X는 독립 변수(원인 변수, 설명 변수)
  • 두 수식이 전달하려는 의미는 동일하다. 회귀 계수(가중치)를 알면 X로부터 Y를 예측할 수 있다.

해석 예시

몸무게와 키 데이터로 만든 선형회귀 식: y = 0.86x + 109.37 → 몸무게가 1kg 증가할 때마다 키가 0.86cm 증가한다는 의미로 해석할 수 있다.

오차항(ε)이 따로 있는 이유

선형회귀 식이 모든 데이터를 완벽하게 설명할 수는 없다. 실제 값과 예측 값 사이의 차이를 표현하기 위해 오차항이 존재한다.


3. 회귀분석 평가 지표

MSE (Mean Squared Error, 평균 제곱 오차)

  • y-hat: 예측(추정)한 값
  • 회귀 모델 평가의 가장 기본 지표
  • 숫자 예측 문제는 머신러닝/딥러닝 어떤 모델이든 MSE를 최소화하는 방향으로 진행

RMSE (Root Mean Squared Error)

  • MSE에 Root를 씌워 제곱된 단위를 원래 단위로 되돌림

MAE (Mean Absolute Error)

  • 절대값을 사용해서 오차를 계산

4. R Square (결정계수) - 선형회귀 전용 지표

개념

  • 전체 모형에서 회귀선으로 설명할 수 있는 정도를 나타내는 지표
  • "예측"한다는 것은 단순 평균값보다 더 잘 맞춰야 한다는 의미
  • 평균값보다 회귀선이 얼마나 더 잘 설명하는지를 측정

기초 용어

  • y_i: 특정 데이터의 실제 값
  • bar{y}: 평균 값
  • hat{y}: 예측·추정한 값

분해 공식

  • SST (Total Sum of Squares): 전체 변동
  • SSE (Error Sum of Squares): 회귀선이 설명하지 못한 변동
  • SSR (Regression Sum of Squares): 회귀선이 설명한 변동

R Square 정의

  • 0~1 사이의 값
  • 1에 가까울수록 회귀선이 데이터를 잘 설명함
  • 모든 데이터에 대해 위 계산을 수행해 도출

    통계학 기초

    가설검정과 통계적 검정 방법

    1. A/B 테스트
    • 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하는 검정 방법
    • 마케팅, 웹사이트 디자인 등에서 많이 사용됨
    • 사용자를 두 그룹으로 나누어 다른 버전을 제공한 후 반응 비교
    주요 비교 지표목적파이썬 실습
    • stats.ttest_ind: 독립표본 t-검정 수행
    • 반환값: t-통계량(평균 차이의 크기와 방향), p-값(귀무가설이 참일 때 현재 데이터보다 극단적인 결과가 나올 확률)

    2. 가설검정
    • 표본 데이터를 통해 모집단의 가설을 검증하는 과정
    • 귀무가설(H0)과 대립가설(H1)을 설정하고 귀무가설을 기각할지 결정
    데이터 분석의 두 가지 전략
    • 확증적 자료분석: 미리 가설을 세운 다음 검증해 나가는 분석
    • 탐색적 자료분석(EDA): 가설을 정하지 않고 데이터를 탐색하면서 가설 후보와 데이터 특징을 찾는 것
    가설검정 단계
    1. 귀무가설(H0)과 대립가설(H1) 설정
    2. 유의수준(α) 결정
    3. 검정통계량 계산
    4. p-값과 유의수준 비교
    5. 결론 도출
    통계적 유의성과 p-값
    • 통계적 유의성: 결과가 우연이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
    • p-값: 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
    • p-값이 유의수준(α)보다 작으면 귀무가설을 기각
    • 일반적으로 유의수준은 0.05 사용
    신뢰구간과 가설검정의 관계
    • 둘 다 데이터의 모수(평균 등)에 대한 정보를 구하는 방법이지만 접근 방식이 다름
    • 신뢰구간: 특정 모수가 포함될 범위를 제공
    • 가설검정: 모수가 특정 값과 같은지 다른지 테스트
    가설 설정 예시 (신약 효과 검정)
    • 귀무가설(H0): 새로운 약물은 기존 약물과 큰 차이가 없다 (현재 상태)
    • 대립가설(H1): 새로운 약물이 기존 약물 대비 효과가 있다 (입증하려는 주장)

    3. t검정
    • 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
    종류
    • 독립표본 t검정: 두 독립된 그룹의 평균 비교 (예: 두 클래스의 시험 성적 비교)
    • 대응표본 t검정: 동일한 그룹의 사전/사후 평균 비교 (예: 다이어트 전후 체중 비교)
    파이썬 실습
    4. 다중검정
    • 여러 가설을 동시에 검정할 때 발생하는 문제
    • 각 검정마다 유의수준을 조정하지 않으면 1종 오류 발생 확률이 증가
    보정 방법
    • 본페로니 보정 (가장 대표적·기본적)
    • 튜키 보정
    • 던넷 보정
    • 윌리엄스 보정
    본페로니 보정
    • 보정된 유의수준 = α / 검정 횟수
    • 예: α = 0.05, 검정 3개 → 보정된 α = 0.0167
    파이썬 실습
    5. 카이제곱검정
    • 범주형 데이터 분석에 사용되는 검정 방법
    • 적합도 검정과 독립성 검정 두 가지로 나뉨
    적합도 검정 (Goodness of Fit)
    • 관찰된 분포와 기대된 분포가 일치하는지 검정
    • p값이 높음 → 데이터가 귀무가설에 잘 맞음 (적합)
    • p값이 낮음 → 데이터가 귀무가설에 잘 맞지 않음 (부적합)
    • 예: 주사위의 각 면이 동일한 확률로 나오는지 검정
    독립성 검정 (Independence Test)
    • 두 범주형 변수 간의 독립성을 검정
    • p값이 높음 → 두 변수 간 연관성 없음 (독립)
    • p값이 낮음 → 두 변수 간 연관성 있음 (독립이 아님)
    • 예: 성별과 직업 만족도의 독립성 검정
    파이썬 실습
    • stats.chisquare: 적합도 검정 → 카이제곱 통계량, p-값 반환
    • stats.chi2_contingency: 독립성 검정 → 카이제곱 통계량, p-값, 자유도(dof = (행-1)×(열-1)), 기대 빈도 반환

    6. 제 1종 오류와 제 2종 오류
    귀무가설True (참)False (거짓)
    기각함 제1종 오류 (위양성) - 확률 α 올바른 결정 - 확률 1-β
    기각 안 함 올바른 결정 - 확률 1-α 제2종 오류 (위음성) - 확률 β
    제 1종 오류 (Type I Error)
    • 귀무가설이 참인데 기각하는 오류
    • 잘못된 긍정 (영향이 없는데 영향이 있다고 결론) → 위양성
    • 발생 확률 = α (유의수준)
    • 유의수준(α)을 정함으로써 제어 가능
    • α = 0.05라면 100번 중 5번 정도의 1종 오류는 감수하겠다는 의미
    다중검정 시 1종 오류가 증가하는 이유
    • 하나의 검정에서 1종 오류가 발생하지 않을 확률: 1−α1 - α
    • m개의 독립된 검정에서 모두 발생하지 않을 확률: (1−α)m(1 - α)^m
    • m개 중 하나 이상에서 1종 오류 발생 확률: 1−(1−α)m1 - (1 - α)^m
    • 예: α=0.05, m=10 → 1−(0.95)10≈0.4011 - (0.95)^{10} ≈ 0.401 (약 40.1%)
    • 즉, 10개 가설을 동시에 검정하면 개별 검정 오류율(5%)보다 훨씬 높아진다.
    제 2종 오류 (Type II Error)
    • 귀무가설이 거짓인데 기각하지 않는 오류
    • 잘못된 부정 (영향이 있는데 없다고 결론) → 위음성
    • 발생 확률 = β
    • 검정력 = 1 - β (제 2종 오류가 일어나지 않을 확률)
    • 직접 통제는 불가능하지만 다음과 같은 방법으로 줄일 수 있음:
      • 표본 크기 n을 키우면 β가 작아짐
      • α와 β는 상충 관계 → α를 너무 낮추면 β가 더 커짐
    예시
    • 새로운 약물이 효과 없는데 있다고 결론 → 제 1종 오류
    • 새로운 약물이 효과 있는데 없다고 결론 → 제 2종 오류

    핵심 정리
  • 개념핵심 포인트
    A/B 테스트 두 버전 비교, 통계적 유의성 확인
    가설검정 귀무가설 vs 대립가설, p-값으로 판단
    t검정 두 집단 평균 비교 (독립/대응)
    다중검정 여러 검정 시 본페로니 보정 필요
    카이제곱검정 범주형 데이터 (적합도·독립성)
    1종 오류 위양성, α로 제어
    2종 오류 위음성, 표본 크기로 제어
  •