3주차 수업
3주차부터는 데이터 관리를 편리하게 해주는 pandas 라이브러리와 데이터 시각화 라이브러리인 seaborn을 간단히 배우고 난 뒤, 본격적으로 지금까지 배웠던 파이썬 언어를 바탕으로 데이터 분석 실습이 진행하였다.
pandas는 데이터 프레임 형태의 단위로 데이터를 저장하며, 정형화되고 수치형인 데이터에 특화되어 있다. 엑셀의 경우에는 방대한 양의 데이터를 처리할 수가 없다. 그러나 pandas의 데이터프레임은 numpy array를 베이스로 지원하고, 파이썬과 함께 쓰이기 때문에 아주 많은 양의 데이터를 처리하는데 상당한 퍼포먼스를 보인다. 지금은 빅데이터가 일상화가 된 세상에 적합한 데이터 분석 라이브러리라고 생각된다. 본 강의에서는 pandas를 이용한 인덱싱과 파일 I/O 등 기본적으로 알아두어야 하는 문법을 배웠다.
seaborn은 matplotlib을 기본으로 다양한 시각화 기법을 제공하는 라이브러리이다. 데이터를 시각화하면 한눈에 어느 지표가 중요한 지를 알 수 있어서 좋다. seaborn은 data로 pandas의 dataframe을 받을 수 있어서 pandas와 numpy 라이브러리와 같이 사용된다. 본 강의에서는 히스토그램, 바그래프, 박스그래프 등 seaborn 라이브러리로 데이터를 다양한 모양으로 시각화해보는 시간을 가졌다.
seaborn을 마지막으로 데이터 처리에 필요한 프로그래밍 언어의 기초를 모두 배우게 되었다. 그리고 3주차에는 이어서 실제 데이터를 이용하여 지금까지 배웠던 언어 기술을 이용한 데이터 분석을 경험해보는 시간을 가졌다. 자료는 정부에서 제공하는 공공데이터를 이용하였고, 그 중 카페 전문점에 대한 데이터만을 추출하여 다양한 기준에 따라 데이터를 시각화하고 분석했다.
그리고 케글(kaggle - 데이터 분석 대회)에서 직접 활동하는 사람들의 데이터를 모은 kaggle_survey 파일을 이용한 데이터 분석도 진행하였다. 하나의 데이터만이 아니라 다른 분야의 데이터에 대해서 다양한 기준으로 분석을 진행할 수 있어서 데이터 분석 능력을 쌓는데 큰 도움이 되었다고 생각한다.
끝으로
앞으로 빅데이터 첫걸음 시작하기 국비지원 과정에서 남은 것은 본인이 직접 데이터를 분석하여 진행할 프로젝트를 완성시키는 것이다. 지금까지 강의를 들으면서 배운 내용들을 토대로 남은 2주간의 프로젝트 분석 과정을 잘 마무리하도록 하겠다.