빅데이터
Matplotlib 라이브러리
Matplotlib 파이썬 프로그래밍 기반 시각화 라이브러리 Numpy 라이브러리, Pandas 라이브러리와 함께 데이터분석 용으로 많이 사용된다. 선 그래프, 산점도, 막대 그래프 등 다양한 플롯 및 차트 기능을 제공한다. 기본적으로 파이썬에 제공되는 라이브러리는 아니기 때문에 구글링을 통해 라이브러리를 설치하길 바란다. Matplotlib 라이브러리 불러오기 import matplotlib as mpl# 맷플롯립 패키지 전부 불러오기 import matplotlib.pyplot as plt# 맷플롯립의 서브패키지 pyplot 불러오기 (대부분 이것 사용) 맷플롯립은 관행적으로 mpl이라는 약칭을 사용하여 불러온다. 간단한 시각화 작업은 맷플롯립의 서브패키지인 pyplot 만으로도 충분히 수행할 수 있..
Pandas 라이브러리
Pandas Python Data Analysis 데이터 분석 및 조작을 위한 파이썬 라이브러리 대용량의 데이터들을 처리하는데 매우 편리 R에서 사용되던 data frame 구조를 본뜬 DataFrame이라는 구조를 사용 Pandas 자료구조 Series: 1차원 DataFrame: 2차원 Panel: 3차원 Pandas 라이브러리 불러오기 pandas는 주로 pd라는 약칭으로 사용된다. import pandas as pd Pandas Series Series 생성 series = pd.Series([1.0, 2.0, 3.0, 4.0, 5.0, 6.0]) series 0 1.0 1 2.0 2 3.0 3 4.0 4 5.0 5 6.0 dtype: float64 pandas 라이브러리의 Series 메서드로 ..
Numpy 라이브러리
Numpy Numerical Python 수학 및 과학 연산을 위한 파이썬 패키지 Numpy 내부는 상당부분이 C나 Fortran으로 작성되어 있어 실행 속도가 꽤 빠른 편이다. 기본적으로 array라는 자료를 생성하고, 이를 바탕으로 색인, 처리, 연산 등을 하는 기능을 수행한다. Numpy 자체만으로도 난수생성, 푸리에변환, 행렬연산, 간단한 기술통계 분석 정도는 가능하지만 실제로는 Scipy, Pandas, matplotlib 등 다른 Python 패키지와 함께 쓰이는 경우가 많다. Numpy Data Types Numpy Type C Type Description numpy.bool_ bool Boolean (True or False) stored as a byte numpy.byte signed..
빅데이터 첫걸음 시작하기 : 데이터분석 인강 5주차
5주차 수업 5주차 수업에서는 4주차에서 자주 사용했던 기법들과 함수들을 다시 이용하여 4주차와 다른 종류의 데이터들을 분석하는 실습을 진행하였다. 4주차에서는 아직 데이터 기준을 나누는 방식이나 이를 위해 사용하는 함수를 배우는 것이 주였지만 5주차에서는 이것에 모두 익숙하다는 가정에서 여러 기준점을 세우고 데이터를 빠르게 분석해 나갔기 때문에 속도감이 있었다고 생각했다. 4주차에서 주로 사용했던 groupby(), pivot() 함수 등을 이용하여 각기 다른 종류의 데이터들을 특정 기준으로 분류하고 그래프를 그려 분석하였고, 최종적으로 데이터로부터 insight를 도출하는 과정을 거쳤다. 5주차에서는 이러한 실습과 더불어 강사의 도움없이 제공된 Starbucks_Customer_Data를 이용하여 직..
빅데이터 첫걸음 시작하기 : 데이터분석 인강 4주차
4주차 수업 3주차까지가 파이썬 프로그래밍 언어와 빅데이터 분석의 기초를 다졌다면, 4주차부터는 각각 다른 분야의 데이터를 이용하여 어떤 기준으로 데이터 분석을 할 것인지를 실습한다. 실습에 사용한 데이터는 총 3종류였고, 데이터 각각에 대해 분석 주제를 여러 개 정하여 진행했다. 각 데이터 분석에서 사용하는 모듈은 주로 pandas와 matplotlib였다. pandas는 상당히 많은 양의 데이터를 처리하기에 적합한 라이브러리라는 것은 이전 시간에 배웠다. matplotlib은 데이터 차트를 그려주는 라이브러리로 선그래프(plot). 막대그래프(plot.bar), 가로막대그래프(plot.barh), 히스토그램(plot.hist) 등 많은 그래프 모델을 제공한다. 데이터 그래프를 그리는 것과 더불어, 결..
빅데이터 첫걸음 시작하기 : 데이터분석 인강 3주차
3주차 수업 3주차부터는 데이터 관리를 편리하게 해주는 pandas 라이브러리와 데이터 시각화 라이브러리인 seaborn을 간단히 배우고 난 뒤, 본격적으로 지금까지 배웠던 파이썬 언어를 바탕으로 데이터 분석 실습이 진행하였다. pandas는 데이터 프레임 형태의 단위로 데이터를 저장하며, 정형화되고 수치형인 데이터에 특화되어 있다. 엑셀의 경우에는 방대한 양의 데이터를 처리할 수가 없다. 그러나 pandas의 데이터프레임은 numpy array를 베이스로 지원하고, 파이썬과 함께 쓰이기 때문에 아주 많은 양의 데이터를 처리하는데 상당한 퍼포먼스를 보인다. 지금은 빅데이터가 일상화가 된 세상에 적합한 데이터 분석 라이브러리라고 생각된다. 본 강의에서는 pandas를 이용한 인덱싱과 파일 I/O 등 기본적..
빅데이터 첫걸음 시작하기 : 데이터분석 인강 2주차
2주차 수업 2주차부터는 파이썬 기본 문법에 대한 강의가 진행된다. 1주차 수업에는 간단한 오리엔테이션만 진행했기 때문에 가볍게 들을 수 있었지만 2주차부터는 강의량이 상당히 늘어 처음 파이썬을 접하는 사람들한테는 부담이 될 것 같다는 생각이 들었다. 아무래도 5주 과정으로 파이썬 사용방법부터 데이터 분석까지 마쳐야 하기 때문에 어쩔 수 없다고 생각한다. 먼저 파이썬에서의 데이터 타입을 공부하고, 이후 데이터 타입을 활용하여 조건문, 반복문, 함수, 입출력 문까지 파이썬에서 가장 기본적으로 알아야 하는 개념들을 공부한다. 파이썬은 기본적으로 사용자에게 굉장히 친절한 언어이다. C나 C++ 같은 언어는 속도는 빠르지만 초심자가 사용하기에는 이해도가 상당히 요구된다. 반면에 파이썬은 간단한 프로그램 정도는 ..