wn42
코딩이랑 이것저것
wn42
전체 방문자
오늘
어제
  • 분류 전체보기 (113)
    • 프로그래머스 (23)
      • LV1 (11)
      • LV2 (1)
      • LV3 (3)
      • 연습 (8)
    • 딥러닝 공부 (0)
      • 머신러닝&딥러닝 이론 (0)
    • 임베디드 (17)
      • Adventure Design (1)
      • 센서기반모바일로봇 (5)
      • ROS (9)
      • Google Coral (2)
    • C++ (38)
      • C++ 기초 (34)
      • 자료구조 및 알고리즘 (4)
    • Python (14)
      • 기본 파이썬 문법 (6)
      • Python 기초 (8)
    • 빅데이터 (9)
      • 빅데이터 첫걸음 시작하기(국비지원) (5)
      • 빅데이터 공부 (4)
    • 알고리즘 공부 (2)
      • 기본 알고리즘 (2)
    • 전자공학 (10)
      • 반도체 공정 (3)
      • 무선데이터통신 (7)
      • 반도체공학 (0)
    • C# (0)
      • C# 기본 (0)

블로그 메뉴

  • 홈
  • 태그
  • 방명록

공지사항

인기 글

태그

  • 변수
  • 스택
  • google coral
  • 소멸자
  • stl
  • 딥러닝
  • 빅데이터
  • Queue
  • 빅데이터 첫걸음 시작하기
  • K디지털크레딧
  • 스택/큐
  • 프로그래머스
  • 내일배움카드
  • 정렬
  • 데이터분석 인강
  • 패스트캠퍼스
  • 노드
  • 데이터분석
  • ROS
  • c++
  • 상속
  • 파이썬
  • 클래스
  • numpy
  • Python
  • 인스턴스
  • 큐
  • 바이트디그리
  • 반복문
  • 조건문

최근 댓글

최근 글

티스토리

hELLO · Designed By 정상우.
wn42

코딩이랑 이것저것

빅데이터 첫걸음 시작하기 : 데이터분석 인강 4주차
빅데이터/빅데이터 첫걸음 시작하기(국비지원)

빅데이터 첫걸음 시작하기 : 데이터분석 인강 4주차

2022. 3. 22. 00:03

끝이 보인다..

4주차 수업

   3주차까지가 파이썬 프로그래밍 언어와 빅데이터 분석의 기초를 다졌다면, 4주차부터는 각각 다른 분야의 데이터를 이용하여 어떤 기준으로 데이터 분석을 할 것인지를 실습한다.

 

   실습에 사용한 데이터는 총 3종류였고, 데이터 각각에 대해 분석 주제를 여러 개 정하여 진행했다. 각 데이터 분석에서 사용하는 모듈은 주로 pandas와 matplotlib였다. pandas는 상당히 많은 양의 데이터를 처리하기에 적합한 라이브러리라는 것은 이전 시간에 배웠다. matplotlib은 데이터 차트를 그려주는 라이브러리로 선그래프(plot). 막대그래프(plot.bar), 가로막대그래프(plot.barh), 히스토그램(plot.hist) 등 많은 그래프 모델을 제공한다.

 

   데이터 그래프를 그리는 것과 더불어, 결측치 확인(데이터에서 null 값이 있는지)과 데이터 전처리(소수점 제거, 반올림 등)을 진행하여 어떻게 하면 데이터를 더 깔끔하게 정리할 수 있는지도 함께 배웠다.

 

함수 정리

   이번 주차 수업에서 사용한 함수 중 중요하다 생각되는 것들을 정리한다.

  • 차트 그리기
    • # 선그래프: df.plot()
    • # 막대그래프: df.plot.bar()
    • # 가로막대그래프: df.plot.barh()
    • # 히스토그램: df.plot.hist()
    • # 제목 정하기: plt.title()
    • # x축, y축 이름 정하기: plt.xlabel(), plt.ylabel()
    • # x축, y축 범위 정하기: plt.xlim(), plt.ylim()
    • # x축, y축 범위명 정하기: plt.xticks(), plt.yticks()
  • 데이터 관련 함수
    • # 데이터 간략히 보기(기본 5줄): df.head()
    • # 결측치 확인(null 확인): df.isnull()
    • # 결측치 확인(열 단위): df.isnull().sum()
    • # 열 단위 기술 통계량 확인(데이터 수, 평균, 표준편차 등): df.describe()
    • # 데이터의 크기(행, 열의 수): df.shape
    • # 특정 키 값을 기준으로 그룹을 나누는 함수: df.group()
    • # groupby로 나눠진 그룹을 따로 추출할 때 사용하는 함수: get_group()
    • # 피벗 테이블 함수: pivot_table()

 

끝으로

   이번 주차에서 사용한 데이터는 크기가 어마어마했다. 진짜 빅데이터라고 불리는 이유가 있는 것 같았다. 그 많은 데이터 중에서 분석 기준을 정하고, 데이터 정제 후 그래프를 그리는 과정이 그렇게 순탄치만은 않았지만 잘 따라가려고 노력했다.. 앞으로 1주밖에 안남은 빅데이터 분석 과정, 프로젝트까지 완벽하게 잘 마무리짓도록 하겠다.

    '빅데이터/빅데이터 첫걸음 시작하기(국비지원)' 카테고리의 다른 글
    • 빅데이터 첫걸음 시작하기 : 데이터분석 인강 5주차
    • 빅데이터 첫걸음 시작하기 : 데이터분석 인강 3주차
    • 빅데이터 첫걸음 시작하기 : 데이터분석 인강 2주차
    • 빅데이터 첫걸음 시작하기 : 데이터분석 인강 1주차
    wn42
    wn42
    코딩이랑 이것저것 하는 블로그

    티스토리툴바