4주차 수업
3주차까지가 파이썬 프로그래밍 언어와 빅데이터 분석의 기초를 다졌다면, 4주차부터는 각각 다른 분야의 데이터를 이용하여 어떤 기준으로 데이터 분석을 할 것인지를 실습한다.
실습에 사용한 데이터는 총 3종류였고, 데이터 각각에 대해 분석 주제를 여러 개 정하여 진행했다. 각 데이터 분석에서 사용하는 모듈은 주로 pandas와 matplotlib였다. pandas는 상당히 많은 양의 데이터를 처리하기에 적합한 라이브러리라는 것은 이전 시간에 배웠다. matplotlib은 데이터 차트를 그려주는 라이브러리로 선그래프(plot). 막대그래프(plot.bar), 가로막대그래프(plot.barh), 히스토그램(plot.hist) 등 많은 그래프 모델을 제공한다.
데이터 그래프를 그리는 것과 더불어, 결측치 확인(데이터에서 null 값이 있는지)과 데이터 전처리(소수점 제거, 반올림 등)을 진행하여 어떻게 하면 데이터를 더 깔끔하게 정리할 수 있는지도 함께 배웠다.
함수 정리
이번 주차 수업에서 사용한 함수 중 중요하다 생각되는 것들을 정리한다.
- 차트 그리기
- # 선그래프: df.plot()
- # 막대그래프: df.plot.bar()
- # 가로막대그래프: df.plot.barh()
- # 히스토그램: df.plot.hist()
- # 제목 정하기: plt.title()
- # x축, y축 이름 정하기: plt.xlabel(), plt.ylabel()
- # x축, y축 범위 정하기: plt.xlim(), plt.ylim()
- # x축, y축 범위명 정하기: plt.xticks(), plt.yticks()
- 데이터 관련 함수
- # 데이터 간략히 보기(기본 5줄): df.head()
- # 결측치 확인(null 확인): df.isnull()
- # 결측치 확인(열 단위): df.isnull().sum()
- # 열 단위 기술 통계량 확인(데이터 수, 평균, 표준편차 등): df.describe()
- # 데이터의 크기(행, 열의 수): df.shape
- # 특정 키 값을 기준으로 그룹을 나누는 함수: df.group()
- # groupby로 나눠진 그룹을 따로 추출할 때 사용하는 함수: get_group()
- # 피벗 테이블 함수: pivot_table()
끝으로
이번 주차에서 사용한 데이터는 크기가 어마어마했다. 진짜 빅데이터라고 불리는 이유가 있는 것 같았다. 그 많은 데이터 중에서 분석 기준을 정하고, 데이터 정제 후 그래프를 그리는 과정이 그렇게 순탄치만은 않았지만 잘 따라가려고 노력했다.. 앞으로 1주밖에 안남은 빅데이터 분석 과정, 프로젝트까지 완벽하게 잘 마무리짓도록 하겠다.