스파르타클럽 내일배움캠프 QA/QC 5기 04/15 TIL

2026. 4. 15. 20:18ㆍ내일배움캠프 TIL

머신러닝의 이해와 라이브러리 기초

1. 선형회귀란?

선형회귀의 기본 아이디어

두 변수(예: 몸무게와 키) 사이의 상관관계를 직선으로 표현하는 방법
데이터 점들을 가장 잘 "설명"하는 직선을 찾는 것이 목표
직선과 실제 데이터 점 사이의 거리를 Error(오차) 라고 정의하고, 이를 최소화하는 직선을 찾는다.

Error를 정의하는 단계별 방법

방법 1: 에러 = 실제 데이터 - 직선의 예측 값
- 문제점: 양수와 음수가 섞여 합치면 서로 상쇄됨
방법 2: 각 Error를 제곱하여 모두 더하기
- 음수를 양수로 만들어 상쇄 문제 해결
방법 3: 전체 에러 합을 데이터 개수로 나누기
- 데이터가 많아질수록 에러가 자연스럽게 커지는 문제 해결

2. 선형회귀 수식

통계학에서의 선형회귀 식

beta_0: 편향(Bias), Y절편
beta_1: 회귀 계수
ε: 오차(에러), 모델이 설명하지 못하는 Y의 변동성

머신러닝/딥러닝에서의 선형회귀 식

w: 가중치 (weight)
b: 편향 (Bias)
머신러닝/딥러닝 모델에서는 오차 항을 명시적으로 다루지 않는다.

용어 정리

공통: Y는 종속 변수(결과 변수), X는 독립 변수(원인 변수, 설명 변수)
두 수식이 전달하려는 의미는 동일하다. 회귀 계수(가중치)를 알면 X로부터 Y를 예측할 수 있다.

해석 예시

몸무게와 키 데이터로 만든 선형회귀 식: y = 0.86x + 109.37 → 몸무게가 1kg 증가할 때마다 키가 0.86cm 증가한다는 의미로 해석할 수 있다.

오차항(ε)이 따로 있는 이유

선형회귀 식이 모든 데이터를 완벽하게 설명할 수는 없다. 실제 값과 예측 값 사이의 차이를 표현하기 위해 오차항이 존재한다.

3. 회귀분석 평가 지표

MSE (Mean Squared Error, 평균 제곱 오차)

y-hat: 예측(추정)한 값
회귀 모델 평가의 가장 기본 지표
숫자 예측 문제는 머신러닝/딥러닝 어떤 모델이든 MSE를 최소화하는 방향으로 진행

RMSE (Root Mean Squared Error)

MSE에 Root를 씌워 제곱된 단위를 원래 단위로 되돌림

MAE (Mean Absolute Error)

절대값을 사용해서 오차를 계산

4. R Square (결정계수) - 선형회귀 전용 지표

개념

전체 모형에서 회귀선으로 설명할 수 있는 정도를 나타내는 지표
"예측"한다는 것은 단순 평균값보다 더 잘 맞춰야 한다는 의미
평균값보다 회귀선이 얼마나 더 잘 설명하는지를 측정

기초 용어

y_i: 특정 데이터의 실제 값
bar{y}: 평균 값
hat{y}: 예측·추정한 값

분해 공식

SST (Total Sum of Squares): 전체 변동
SSE (Error Sum of Squares): 회귀선이 설명하지 못한 변동
SSR (Regression Sum of Squares): 회귀선이 설명한 변동

R Square 정의

0~1 사이의 값
1에 가까울수록 회귀선이 데이터를 잘 설명함
모든 데이터에 대해 위 계산을 수행해 도출
통계학 기초

가설검정과 통계적 검정 방법
1. A/B 테스트
- 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하는 검정 방법
- 마케팅, 웹사이트 디자인 등에서 많이 사용됨
- 사용자를 두 그룹으로 나누어 다른 버전을 제공한 후 반응 비교
주요 비교 지표목적파이썬 실습
- stats.ttest_ind: 독립표본 t-검정 수행
- 반환값: t-통계량(평균 차이의 크기와 방향), p-값(귀무가설이 참일 때 현재 데이터보다 극단적인 결과가 나올 확률)
2. 가설검정
- 표본 데이터를 통해 모집단의 가설을 검증하는 과정
- 귀무가설(H0)과 대립가설(H1)을 설정하고 귀무가설을 기각할지 결정
데이터 분석의 두 가지 전략
- 확증적 자료분석: 미리 가설을 세운 다음 검증해 나가는 분석
- 탐색적 자료분석(EDA): 가설을 정하지 않고 데이터를 탐색하면서 가설 후보와 데이터 특징을 찾는 것
가설검정 단계
1. 귀무가설(H0)과 대립가설(H1) 설정
2. 유의수준(α) 결정
3. 검정통계량 계산
4. p-값과 유의수준 비교
5. 결론 도출
통계적 유의성과 p-값
- 통계적 유의성: 결과가 우연이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
- p-값: 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- p-값이 유의수준(α)보다 작으면 귀무가설을 기각
- 일반적으로 유의수준은 0.05 사용
신뢰구간과 가설검정의 관계
- 둘 다 데이터의 모수(평균 등)에 대한 정보를 구하는 방법이지만 접근 방식이 다름
- 신뢰구간: 특정 모수가 포함될 범위를 제공
- 가설검정: 모수가 특정 값과 같은지 다른지 테스트
가설 설정 예시 (신약 효과 검정)
- 귀무가설(H0): 새로운 약물은 기존 약물과 큰 차이가 없다 (현재 상태)
- 대립가설(H1): 새로운 약물이 기존 약물 대비 효과가 있다 (입증하려는 주장)
3. t검정
- 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
종류
- 독립표본 t검정: 두 독립된 그룹의 평균 비교 (예: 두 클래스의 시험 성적 비교)
- 대응표본 t검정: 동일한 그룹의 사전/사후 평균 비교 (예: 다이어트 전후 체중 비교)
파이썬 실습
4. 다중검정
- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류 발생 확률이 증가
보정 방법
- 본페로니 보정 (가장 대표적·기본적)
- 튜키 보정
- 던넷 보정
- 윌리엄스 보정
본페로니 보정
- 보정된 유의수준 = α / 검정 횟수
- 예: α = 0.05, 검정 3개 → 보정된 α = 0.0167
파이썬 실습
5. 카이제곱검정
- 범주형 데이터 분석에 사용되는 검정 방법
- 적합도 검정과 독립성 검정 두 가지로 나뉨
적합도 검정 (Goodness of Fit)
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높음 → 데이터가 귀무가설에 잘 맞음 (적합)
- p값이 낮음 → 데이터가 귀무가설에 잘 맞지 않음 (부적합)
- 예: 주사위의 각 면이 동일한 확률로 나오는지 검정
독립성 검정 (Independence Test)
- 두 범주형 변수 간의 독립성을 검정
- p값이 높음 → 두 변수 간 연관성 없음 (독립)
- p값이 낮음 → 두 변수 간 연관성 있음 (독립이 아님)
- 예: 성별과 직업 만족도의 독립성 검정
파이썬 실습
- stats.chisquare: 적합도 검정 → 카이제곱 통계량, p-값 반환
- stats.chi2_contingency: 독립성 검정 → 카이제곱 통계량, p-값, 자유도(dof = (행-1)×(열-1)), 기대 빈도 반환
6. 제 1종 오류와 제 2종 오류
귀무가설True (참)False (거짓)

기각함 제1종 오류 (위양성) - 확률 α 올바른 결정 - 확률 1-β

기각 안 함 올바른 결정 - 확률 1-α 제2종 오류 (위음성) - 확률 β

제 1종 오류 (Type I Error)
- 귀무가설이 참인데 기각하는 오류
- 잘못된 긍정 (영향이 없는데 영향이 있다고 결론) → 위양성
- 발생 확률 = α (유의수준)
- 유의수준(α)을 정함으로써 제어 가능
- α = 0.05라면 100번 중 5번 정도의 1종 오류는 감수하겠다는 의미
다중검정 시 1종 오류가 증가하는 이유
- 하나의 검정에서 1종 오류가 발생하지 않을 확률: 1−α1 - α
- m개의 독립된 검정에서 모두 발생하지 않을 확률: (1−α)m(1 - α)^m
- m개 중 하나 이상에서 1종 오류 발생 확률: 1−(1−α)m1 - (1 - α)^m
- 예: α=0.05, m=10 → 1−(0.95)10≈0.4011 - (0.95)^{10} ≈ 0.401 (약 40.1%)
- 즉, 10개 가설을 동시에 검정하면 개별 검정 오류율(5%)보다 훨씬 높아진다.
제 2종 오류 (Type II Error)
- 귀무가설이 거짓인데 기각하지 않는 오류
- 잘못된 부정 (영향이 있는데 없다고 결론) → 위음성
- 발생 확률 = β
- 검정력 = 1 - β (제 2종 오류가 일어나지 않을 확률)
- 직접 통제는 불가능하지만 다음과 같은 방법으로 줄일 수 있음:
  - 표본 크기 n을 키우면 β가 작아짐
  - α와 β는 상충 관계 → α를 너무 낮추면 β가 더 커짐
예시
- 새로운 약물이 효과 없는데 있다고 결론 → 제 1종 오류
- 새로운 약물이 효과 있는데 없다고 결론 → 제 2종 오류
핵심 정리

개념핵심 포인트

A/B 테스트	두 버전 비교, 통계적 유의성 확인
가설검정	귀무가설 vs 대립가설, p-값으로 판단
t검정	두 집단 평균 비교 (독립/대응)
다중검정	여러 검정 시 본페로니 보정 필요
카이제곱검정	범주형 데이터 (적합도·독립성)
1종 오류	위양성, α로 제어
2종 오류	위음성, 표본 크기로 제어

'내일배움캠프 TIL' 카테고리의 다른 글

스파르타클럽 내일배움캠프 QA/QC 5기 04/17 TIL (0)	2026.04.17
스파르타클럽 내일배움캠프 QA/QC 5기 04/16 TIL (0)	2026.04.16
스파르타클럽 내일배움캠프 QA/QC 5기 04/14 TIL (0)	2026.04.14
스파르타클럽 내일배움캠프 QA/QC 5기 04/13 TIL (0)	2026.04.13
스파르타클럽 내일배움캠프 QA/QC 5기 04/09 TIL (0)	2026.04.09

mosh0312 님의 블로그