스파르타클럽 내일배움캠프 QA/QC 5기 03/26 TIL
2026. 3. 26. 19:13ㆍ내일배움캠프 TIL
오늘은 데이터 전처리 & 시각화 챕터 3과 신재춘 튜터님의 라이브 섹션을 들었다.
챕터 3
3-1 & 3-2: Pandas 알아보기 & 데이터 전처리 - 컬럼
- Pandas 라이브러리 호출: import pandas as pd를 사용하여 불러오며, 주로 pd라는 별칭을 사용한다.
- 데이터 불러오기: pd.read_csv(), pd.read_excel() 등을 통해 외부 파일을 데이터프레임 형태로 가져온다.
- 인덱스(Index): 데이터의 행을 식별하는 주소 역할을 하며, 기본 정수 인덱스 외에 사용자 지정 인덱스 설정이 가능하다.
- 컬럼(Column): 데이터프레임의 열(변수)을 의미한다. df.columns로 확인하며, 리스트를 대입하여 이름을 일괄 변경하거나 rename()을 사용한다.
3-3: 데이터 전처리 - 데이터 확인
- 데이터 탐색: * head(n): 상위 n개 행 확인.
- info(): 컬럼명, 데이터 개수, 데이터 타입(dtype) 확인.
- describe(): 수치형 데이터의 기초 통계량(평균, 표준편차 등) 확인.
- 결측치 및 중복 제거:
- isnull().sum()으로 결측치를 확인하고 dropna()로 제거한다.
- duplicated()로 중복을 확인하고 drop_duplicates()로 제거한다.
- 타입 변환: astype()을 사용하여 데이터 타입을 변경한다 (예: int64, float64, object, datetime64).
3-4 & 3-5: 데이터 전처리 - 데이터 선택 & 불리언 인덱싱
- 데이터 선택 도구:
- iloc: 정수 인덱스 번호 기반 선택 (df.iloc[행번호, 열번호]).
- loc: 레이블(이름) 기반 선택 (df.loc['행이름', '컬럼명']).
- 불리언 인덱싱(Boolean Indexing): 조건을 활용하여 특정 행을 추출한다.
- 단일 조건: df[df['age'] >= 30]
- 복합 조건: AND(&), OR(|) 연산자를 사용하여 여러 조건을 결합한다.
3-6: 데이터 전처리 - 데이터 병합
- concat(): 데이터프레임을 위아래(axis=0) 또는 좌우(axis=1)로 단순 연결한다.
- merge(): 공통된 열(Key)을 기준으로 데이터를 병합한다 (SQL의 JOIN과 유사).
- inner: 교집합, outer: 합집합, left/right: 기준 방향의 모든 데이터 유지.
3-7 & 3-8: 데이터 전처리 - 데이터 집계 & 데이터 정렬
- Group by: 특정 컬럼을 기준으로 그룹화하여 통계치(mean, sum, count 등)를 계산한다.
- Pivot Table: 행, 열, 값을 지정하여 엑셀의 피벗 테이블처럼 데이터를 재구성한다.
- 데이터 정렬:
- sort_values(): 특정 컬럼 값을 기준으로 정렬 (오름차순/내림차순).
- sort_index(): 인덱스 번호나 이름을 기준으로 정렬한다.
'내일배움캠프 TIL' 카테고리의 다른 글
| 스파르타클럽 내일배움캠프 QA/QC 5기 03/30 TIL (0) | 2026.03.30 |
|---|---|
| 스파르타클럽 내일배움캠프 QA/QC 5기 03/27 TIL (0) | 2026.03.27 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 03/24 TIL (0) | 2026.03.24 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 03/23 TIL (0) | 2026.03.23 |
| 스파르타클럽 내일배움캠프 QA/QC 5기 03/20 TIL (0) | 2026.03.20 |