스파르타클럽 내일배움캠프 QA/QC 5기 04/15 TIL
2026. 4. 15. 20:18ㆍ내일배움캠프 TIL
머신러닝의 이해와 라이브러리 기초
1. 선형회귀란?
선형회귀의 기본 아이디어
- 두 변수(예: 몸무게와 키) 사이의 상관관계를 직선으로 표현하는 방법
- 데이터 점들을 가장 잘 "설명"하는 직선을 찾는 것이 목표
- 직선과 실제 데이터 점 사이의 거리를 Error(오차) 라고 정의하고, 이를 최소화하는 직선을 찾는다.
Error를 정의하는 단계별 방법
- 방법 1: 에러 = 실제 데이터 - 직선의 예측 값
- 문제점: 양수와 음수가 섞여 합치면 서로 상쇄됨
- 방법 2: 각 Error를 제곱하여 모두 더하기
- 음수를 양수로 만들어 상쇄 문제 해결
- 방법 3: 전체 에러 합을 데이터 개수로 나누기
- 데이터가 많아질수록 에러가 자연스럽게 커지는 문제 해결
2. 선형회귀 수식
통계학에서의 선형회귀 식

- beta_0: 편향(Bias), Y절편
- beta_1: 회귀 계수
- ε: 오차(에러), 모델이 설명하지 못하는 Y의 변동성
머신러닝/딥러닝에서의 선형회귀 식

- w: 가중치 (weight)
- b: 편향 (Bias)
- 머신러닝/딥러닝 모델에서는 오차 항을 명시적으로 다루지 않는다.
용어 정리
- 공통: Y는 종속 변수(결과 변수), X는 독립 변수(원인 변수, 설명 변수)
- 두 수식이 전달하려는 의미는 동일하다. 회귀 계수(가중치)를 알면 X로부터 Y를 예측할 수 있다.
해석 예시
몸무게와 키 데이터로 만든 선형회귀 식: y = 0.86x + 109.37 → 몸무게가 1kg 증가할 때마다 키가 0.86cm 증가한다는 의미로 해석할 수 있다.
오차항(ε)이 따로 있는 이유
선형회귀 식이 모든 데이터를 완벽하게 설명할 수는 없다. 실제 값과 예측 값 사이의 차이를 표현하기 위해 오차항이 존재한다.
3. 회귀분석 평가 지표
MSE (Mean Squared Error, 평균 제곱 오차)

- y-hat: 예측(추정)한 값
- 회귀 모델 평가의 가장 기본 지표
- 숫자 예측 문제는 머신러닝/딥러닝 어떤 모델이든 MSE를 최소화하는 방향으로 진행
RMSE (Root Mean Squared Error)

- MSE에 Root를 씌워 제곱된 단위를 원래 단위로 되돌림
MAE (Mean Absolute Error)

- 절대값을 사용해서 오차를 계산
4. R Square (결정계수) - 선형회귀 전용 지표
개념
- 전체 모형에서 회귀선으로 설명할 수 있는 정도를 나타내는 지표
- "예측"한다는 것은 단순 평균값보다 더 잘 맞춰야 한다는 의미
- 평균값보다 회귀선이 얼마나 더 잘 설명하는지를 측정
기초 용어
- y_i: 특정 데이터의 실제 값
- bar{y}: 평균 값
- hat{y}: 예측·추정한 값
분해 공식

- SST (Total Sum of Squares): 전체 변동
- SSE (Error Sum of Squares): 회귀선이 설명하지 못한 변동
- SSR (Regression Sum of Squares): 회귀선이 설명한 변동
R Square 정의

- 0~1 사이의 값
- 1에 가까울수록 회귀선이 데이터를 잘 설명함
- 모든 데이터에 대해 위 계산을 수행해 도출
통계학 기초
가설검정과 통계적 검정 방법
1. A/B 테스트- 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하는 검정 방법
- 마케팅, 웹사이트 디자인 등에서 많이 사용됨
- 사용자를 두 그룹으로 나누어 다른 버전을 제공한 후 반응 비교
- stats.ttest_ind: 독립표본 t-검정 수행
- 반환값: t-통계량(평균 차이의 크기와 방향), p-값(귀무가설이 참일 때 현재 데이터보다 극단적인 결과가 나올 확률)
2. 가설검정- 표본 데이터를 통해 모집단의 가설을 검증하는 과정
- 귀무가설(H0)과 대립가설(H1)을 설정하고 귀무가설을 기각할지 결정
- 확증적 자료분석: 미리 가설을 세운 다음 검증해 나가는 분석
- 탐색적 자료분석(EDA): 가설을 정하지 않고 데이터를 탐색하면서 가설 후보와 데이터 특징을 찾는 것
- 귀무가설(H0)과 대립가설(H1) 설정
- 유의수준(α) 결정
- 검정통계량 계산
- p-값과 유의수준 비교
- 결론 도출
- 통계적 유의성: 결과가 우연이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
- p-값: 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- p-값이 유의수준(α)보다 작으면 귀무가설을 기각
- 일반적으로 유의수준은 0.05 사용
- 둘 다 데이터의 모수(평균 등)에 대한 정보를 구하는 방법이지만 접근 방식이 다름
- 신뢰구간: 특정 모수가 포함될 범위를 제공
- 가설검정: 모수가 특정 값과 같은지 다른지 테스트
- 귀무가설(H0): 새로운 약물은 기존 약물과 큰 차이가 없다 (현재 상태)
- 대립가설(H1): 새로운 약물이 기존 약물 대비 효과가 있다 (입증하려는 주장)
3. t검정- 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
- 독립표본 t검정: 두 독립된 그룹의 평균 비교 (예: 두 클래스의 시험 성적 비교)
- 대응표본 t검정: 동일한 그룹의 사전/사후 평균 비교 (예: 다이어트 전후 체중 비교)
4. 다중검정- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류 발생 확률이 증가
- 본페로니 보정 (가장 대표적·기본적)
- 튜키 보정
- 던넷 보정
- 윌리엄스 보정
- 보정된 유의수준 = α / 검정 횟수
- 예: α = 0.05, 검정 3개 → 보정된 α = 0.0167
5. 카이제곱검정- 범주형 데이터 분석에 사용되는 검정 방법
- 적합도 검정과 독립성 검정 두 가지로 나뉨
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높음 → 데이터가 귀무가설에 잘 맞음 (적합)
- p값이 낮음 → 데이터가 귀무가설에 잘 맞지 않음 (부적합)
- 예: 주사위의 각 면이 동일한 확률로 나오는지 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높음 → 두 변수 간 연관성 없음 (독립)
- p값이 낮음 → 두 변수 간 연관성 있음 (독립이 아님)
- 예: 성별과 직업 만족도의 독립성 검정
- stats.chisquare: 적합도 검정 → 카이제곱 통계량, p-값 반환
- stats.chi2_contingency: 독립성 검정 → 카이제곱 통계량, p-값, 자유도(dof = (행-1)×(열-1)), 기대 빈도 반환
6. 제 1종 오류와 제 2종 오류귀무가설True (참)False (거짓)제 1종 오류 (Type I Error)기각함 제1종 오류 (위양성) - 확률 α 올바른 결정 - 확률 1-β 기각 안 함 올바른 결정 - 확률 1-α 제2종 오류 (위음성) - 확률 β - 귀무가설이 참인데 기각하는 오류
- 잘못된 긍정 (영향이 없는데 영향이 있다고 결론) → 위양성
- 발생 확률 = α (유의수준)
- 유의수준(α)을 정함으로써 제어 가능
- α = 0.05라면 100번 중 5번 정도의 1종 오류는 감수하겠다는 의미
- 하나의 검정에서 1종 오류가 발생하지 않을 확률: 1−α1 - α
- m개의 독립된 검정에서 모두 발생하지 않을 확률: (1−α)m(1 - α)^m
- m개 중 하나 이상에서 1종 오류 발생 확률: 1−(1−α)m1 - (1 - α)^m
- 예: α=0.05, m=10 → 1−(0.95)10≈0.4011 - (0.95)^{10} ≈ 0.401 (약 40.1%)
- 즉, 10개 가설을 동시에 검정하면 개별 검정 오류율(5%)보다 훨씬 높아진다.
- 귀무가설이 거짓인데 기각하지 않는 오류
- 잘못된 부정 (영향이 있는데 없다고 결론) → 위음성
- 발생 확률 = β
- 검정력 = 1 - β (제 2종 오류가 일어나지 않을 확률)
- 직접 통제는 불가능하지만 다음과 같은 방법으로 줄일 수 있음:
- 표본 크기 n을 키우면 β가 작아짐
- α와 β는 상충 관계 → α를 너무 낮추면 β가 더 커짐
- 새로운 약물이 효과 없는데 있다고 결론 → 제 1종 오류
- 새로운 약물이 효과 있는데 없다고 결론 → 제 2종 오류
핵심 정리 - 개념핵심 포인트
A/B 테스트 두 버전 비교, 통계적 유의성 확인 가설검정 귀무가설 vs 대립가설, p-값으로 판단 t검정 두 집단 평균 비교 (독립/대응) 다중검정 여러 검정 시 본페로니 보정 필요 카이제곱검정 범주형 데이터 (적합도·독립성) 1종 오류 위양성, α로 제어 2종 오류 위음성, 표본 크기로 제어
'내일배움캠프 TIL' 카테고리의 다른 글
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/17 TIL (0) | 2026.04.17 |
|---|---|
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/16 TIL (0) | 2026.04.16 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/14 TIL (0) | 2026.04.14 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/13 TIL (0) | 2026.04.13 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/09 TIL (0) | 2026.04.09 |