스파르타클럽 내일배움캠프 QA/QC 5기 04/13 TIL
2026. 4. 13. 20:19ㆍ내일배움캠프 TIL
오늘은 새로운 학습주차에 들어가 통계학 기초 강의와 머신러닝의 이해와 라이브러리 활용 심화 강의를 수강했다.
통계학 기초
데이터 분석에서 통계가 중요한 이유
- 의사결정의 근거: 주관이 아닌 객관적인 데이터를 바탕으로 현명한 결정을 내리게 함.
- 패턴 발견 및 요약: 방대한 데이터 속에서 핵심 정보를 추출하고 숨겨진 패턴을 찾아냄.
- 실무 활용: 고객 만족도 분석, 타겟 세그먼트 분류, 상품 추천 등 기업의 수익 창출에 직결됨.
기술통계 vs 추론통계
- 기술통계 (Descriptive Statistics): 수집한 데이터를 요약하고 묘사하는 방법.
- 평균, 중앙값, 분산, 표준편차 등을 사용해 데이터의 전반적인 특징을 파악함.
- 데이터 전체를 한눈에 보기 좋게 요약하지만, 이상치(Outlier)에 영향을 받을 수 있음.
- 추론통계 (Inferential Statistics): 표본(Sample)을 통해 모집단(Population)의 특성을 추측하는 방법.
- 일부 데이터를 바탕으로 전체 데이터의 성질을 추정하고 가설을 검정함.
- 신뢰구간과 가설검정이 주요 도구임.
위치 및 변이 추정
- 위치 추정 (데이터의 중심)
- 평균(Mean): 데이터의 총합을 개수로 나눈 값. 일반적인 경향을 파악하기 좋음.
- 중앙값(Median): 크기순 정렬 시 정중앙에 위치한 값. 극단적인 값(이상치)에 영향을 덜 받음.
- 변이 추정 (데이터의 퍼짐)
- 범위(Range): 최댓값과 최솟값의 차이. 데이터 변동성을 확인하는 가장 간단한 방법.
- 분산(Variance): 데이터가 평균에서 얼마나 떨어져 있는지 제곱하여 평균을 낸 값.
- 표준편차(Standard Deviation): 분산의 제곱근. 원래 데이터와 단위가 같아 해석이 용이함.
다양한 분석 방법과 상관관계
- 상관관계(Correlation): 두 변수가 서로 어떻게 관련되어 있는지 나타냄. 상관계수는 -1에서 1 사이 값을 가짐.
- 인과관계(Causation): 한 변수가 원인이 되어 다른 변수에 결과를 일으키는 관계. 상관관계가 높다고 해서 반드시 인과관계인 것은 아님을 주의해야 함.
- 시각화: 히스토그램, 산점도, 박스 플롯 등을 통해 데이터의 분포와 관계를 시각적으로 확인하는 과정이 필수적임.
실습 도구
- Pandas/NumPy: 데이터 조작 및 수치 계산.
- Matplotlib/Seaborn: 데이터 시각화 라이브러리.
머신러닝의 이해와 라이브러리
예측 모델링 전체 프로세스
성공적인 예측 모델을 만들기 위해서는 단순한 모델링을 넘어 전체적인 흐름을 이해해야 함.
- 데이터 수집: 분석에 필요한 기초 데이터를 확보하는 단계.
- 데이터 전처리: 이상치 처리, 결측치 처리, 인코딩, 스케일링 등을 통해 데이터를 정제함.
- EDA (탐색적 데이터 분석): 기술통계와 시각화를 통해 데이터의 특성을 파악함.
- 모델링 및 평가: 최적의 알고리즘을 선택하고 성능을 평가함.
- 배포: 완성된 모델을 실제 서비스나 시스템에 적용함.
데이터 수집의 구조 (Data Architecture)
데이터는 다양한 소스에서 발생하며, 이를 효율적으로 관리하기 위한 구조가 필요함.
- Data Source: OLTP 데이터베이스(트랜잭션 처리), 기업 내부 앱, 외부 소스(Google Analytics), 로그 데이터 등.
- Data Lake: 가공되지 않은 원시 형태의 다양한 데이터를 그대로 저장하는 저장소.
- Data Warehouse: 분석을 위해 구조화되고 정제된 데이터를 저장하는 시스템.
- Data Mart: 재무, 마케팅 등 특정 부서나 목적에 맞게 가공된 데이터 세트.
데이터 분석가의 역할과 수집 방법
- 분석가의 역할: 데이터 엔지니어가 구축한 환경에서 SQL이나 Python을 활용해 필요한 데이터를 추출하고 리포팅이나 머신러닝에 활용함.
- 주요 수집 경로
- 내부 데이터: 사내 DB에서 SQL/Python으로 데이터 마트 생성.
- 외부 데이터: CSV, Excel 파일 다운로드.
- 기술적 수집: API를 이용한 데이터 연동 또는 데이터 크롤링(Crawling)을 통한 수집.
탐색적 데이터 분석(EDA)의 정의
- EDA(Exploratory Data Analysis): 데이터의 시각화와 기술통계를 통해 데이터를 이해하고 탐구하는 과정.
- 목적: 데이터에 대한 기초 정보를 얻고, 분석 목적에 적합한 모델링 방향을 결정하기 위해 반드시 거쳐야 하는 필수 단계임.
기술통계를 활용한 EDA
- describe() 함수: 데이터프레임의 요약 통계량(개수, 평균, 표준편차, 사분위수 등)을 한눈에 확인 가능.
- 범주형 데이터 확인: include='all' 옵션을 사용하면 수치형뿐만 아니라 범주형 데이터의 빈도수(count), 고유값 수(unique), 최빈값(top) 등도 함께 파악할 수 있음.
Seaborn을 활용한 데이터 시각화
데이터의 형태와 변수 간의 관계를 파악하기 위해 다양한 시각화 도구를 사용함.
- Boxplot (상자 그림): 수치형 자료의 분포와 이상치를 확인하기 좋음. 특히 범주형 변수와 수치형 변수의 관계를 비교할 때 유용함. (예: 식사 시간대에 따른 전체 계산 금액의 차이)
- Histogram (히스토그램): 수치형 자료의 빈도를 구간별로 나타내어 데이터가 어디에 집중되어 있는지(분포의 형태) 파악할 때 사용함. (예: 고객의 연령대별 분포)
- Scatterplot (산점도): 두 수치형 변수 간의 관계를 점으로 표현함. 상관관계나 데이터의 패턴을 시각적으로 확인하는 데 효과적임. (예: 총 계산 금액과 팁 금액의 관계)
시각화 라이브러리 특징
- Seaborn: Matplotlib을 기반으로 하며, 더 세련된 디자인과 복잡한 통계 그래프를 간단한 코드로 구현할 수 있음.
- Matplotlib: 파이썬의 가장 기본적인 시각화 도구로, 세밀한 그래프 제어가 가능함.
'내일배움캠프 TIL' 카테고리의 다른 글
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/15 TIL (1) | 2026.04.15 |
|---|---|
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/14 TIL (0) | 2026.04.14 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/09 TIL (0) | 2026.04.09 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/03 TIL (0) | 2026.04.03 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 04/02 TIL (0) | 2026.04.02 |