스파르타클럽 내일배움캠프 QA/QC 5기 04/13 TIL

2026. 4. 13. 20:19내일배움캠프 TIL

오늘은 새로운 학습주차에 들어가 통계학 기초 강의와 머신러닝의 이해와 라이브러리 활용 심화 강의를 수강했다.

통계학 기초

데이터 분석에서 통계가 중요한 이유

  • 의사결정의 근거: 주관이 아닌 객관적인 데이터를 바탕으로 현명한 결정을 내리게 함.
  • 패턴 발견 및 요약: 방대한 데이터 속에서 핵심 정보를 추출하고 숨겨진 패턴을 찾아냄.
  • 실무 활용: 고객 만족도 분석, 타겟 세그먼트 분류, 상품 추천 등 기업의 수익 창출에 직결됨.

기술통계 vs 추론통계

  • 기술통계 (Descriptive Statistics): 수집한 데이터를 요약하고 묘사하는 방법.
    • 평균, 중앙값, 분산, 표준편차 등을 사용해 데이터의 전반적인 특징을 파악함.
    • 데이터 전체를 한눈에 보기 좋게 요약하지만, 이상치(Outlier)에 영향을 받을 수 있음.
  • 추론통계 (Inferential Statistics): 표본(Sample)을 통해 모집단(Population)의 특성을 추측하는 방법.
    • 일부 데이터를 바탕으로 전체 데이터의 성질을 추정하고 가설을 검정함.
    • 신뢰구간과 가설검정이 주요 도구임.

위치 및 변이 추정

  • 위치 추정 (데이터의 중심)
    • 평균(Mean): 데이터의 총합을 개수로 나눈 값. 일반적인 경향을 파악하기 좋음.
    • 중앙값(Median): 크기순 정렬 시 정중앙에 위치한 값. 극단적인 값(이상치)에 영향을 덜 받음.
  • 변이 추정 (데이터의 퍼짐)
    • 범위(Range): 최댓값과 최솟값의 차이. 데이터 변동성을 확인하는 가장 간단한 방법.
    • 분산(Variance): 데이터가 평균에서 얼마나 떨어져 있는지 제곱하여 평균을 낸 값.
    • 표준편차(Standard Deviation): 분산의 제곱근. 원래 데이터와 단위가 같아 해석이 용이함.

다양한 분석 방법과 상관관계

  • 상관관계(Correlation): 두 변수가 서로 어떻게 관련되어 있는지 나타냄. 상관계수는 -1에서 1 사이 값을 가짐.
  • 인과관계(Causation): 한 변수가 원인이 되어 다른 변수에 결과를 일으키는 관계. 상관관계가 높다고 해서 반드시 인과관계인 것은 아님을 주의해야 함.
  • 시각화: 히스토그램, 산점도, 박스 플롯 등을 통해 데이터의 분포와 관계를 시각적으로 확인하는 과정이 필수적임.

실습 도구

  • Pandas/NumPy: 데이터 조작 및 수치 계산.
  • Matplotlib/Seaborn: 데이터 시각화 라이브러리.

 

 

머신러닝의 이해와 라이브러리

 

예측 모델링 전체 프로세스

성공적인 예측 모델을 만들기 위해서는 단순한 모델링을 넘어 전체적인 흐름을 이해해야 함.

  1. 데이터 수집: 분석에 필요한 기초 데이터를 확보하는 단계.
  2. 데이터 전처리: 이상치 처리, 결측치 처리, 인코딩, 스케일링 등을 통해 데이터를 정제함.
  3. EDA (탐색적 데이터 분석): 기술통계와 시각화를 통해 데이터의 특성을 파악함.
  4. 모델링 및 평가: 최적의 알고리즘을 선택하고 성능을 평가함.
  5. 배포: 완성된 모델을 실제 서비스나 시스템에 적용함.

데이터 수집의 구조 (Data Architecture)

데이터는 다양한 소스에서 발생하며, 이를 효율적으로 관리하기 위한 구조가 필요함.

  • Data Source: OLTP 데이터베이스(트랜잭션 처리), 기업 내부 앱, 외부 소스(Google Analytics), 로그 데이터 등.
  • Data Lake: 가공되지 않은 원시 형태의 다양한 데이터를 그대로 저장하는 저장소.
  • Data Warehouse: 분석을 위해 구조화되고 정제된 데이터를 저장하는 시스템.
  • Data Mart: 재무, 마케팅 등 특정 부서나 목적에 맞게 가공된 데이터 세트.

데이터 분석가의 역할과 수집 방법

  • 분석가의 역할: 데이터 엔지니어가 구축한 환경에서 SQL이나 Python을 활용해 필요한 데이터를 추출하고 리포팅이나 머신러닝에 활용함.
  • 주요 수집 경로
    • 내부 데이터: 사내 DB에서 SQL/Python으로 데이터 마트 생성.
    • 외부 데이터: CSV, Excel 파일 다운로드.
    • 기술적 수집: API를 이용한 데이터 연동 또는 데이터 크롤링(Crawling)을 통한 수집.

탐색적 데이터 분석(EDA)의 정의

  • EDA(Exploratory Data Analysis): 데이터의 시각화와 기술통계를 통해 데이터를 이해하고 탐구하는 과정.
  • 목적: 데이터에 대한 기초 정보를 얻고, 분석 목적에 적합한 모델링 방향을 결정하기 위해 반드시 거쳐야 하는 필수 단계임.

기술통계를 활용한 EDA

  • describe() 함수: 데이터프레임의 요약 통계량(개수, 평균, 표준편차, 사분위수 등)을 한눈에 확인 가능.
  • 범주형 데이터 확인: include='all' 옵션을 사용하면 수치형뿐만 아니라 범주형 데이터의 빈도수(count), 고유값 수(unique), 최빈값(top) 등도 함께 파악할 수 있음.

Seaborn을 활용한 데이터 시각화

데이터의 형태와 변수 간의 관계를 파악하기 위해 다양한 시각화 도구를 사용함.

  • Boxplot (상자 그림): 수치형 자료의 분포와 이상치를 확인하기 좋음. 특히 범주형 변수와 수치형 변수의 관계를 비교할 때 유용함. (예: 식사 시간대에 따른 전체 계산 금액의 차이)
  • Histogram (히스토그램): 수치형 자료의 빈도를 구간별로 나타내어 데이터가 어디에 집중되어 있는지(분포의 형태) 파악할 때 사용함. (예: 고객의 연령대별 분포)
  • Scatterplot (산점도): 두 수치형 변수 간의 관계를 점으로 표현함. 상관관계나 데이터의 패턴을 시각적으로 확인하는 데 효과적임. (예: 총 계산 금액과 팁 금액의 관계)

시각화 라이브러리 특징

  • Seaborn: Matplotlib을 기반으로 하며, 더 세련된 디자인과 복잡한 통계 그래프를 간단한 코드로 구현할 수 있음.
  • Matplotlib: 파이썬의 가장 기본적인 시각화 도구로, 세밀한 그래프 제어가 가능함.