[데이터 분석] 탐색적 데이터 분석
Updated:
개요
탐색적 데이터 분석의 과정에 대해 살펴본다.
탐색적 데이터 분석의 과정
탐색적 데이터 분석은 데이터의 정보를 파악하며 문제 해결에 필요한 힌트를 분석하는 과정이다.
데이터와의 첫 만남
우리가 실제로 접하는 대부분의 데이터는 raw data라고 불리우는 아직 분석에 활용된 적이 없는 호근 정제되지 않은 데이터이다. 탐색적 데이터 분석은 데이터를 열어보는 상황에서부터 시작되며 다음과 같은 과정을 수행한다.
-
데이터의 출처와 주제에 대해 이해한다.
우선 데이터가 어디에서 생성된 것이고, 어떻게 수집된 것인지를 이해하는 것이 먼저이다. 데이터의 이름, 구성 요소, 그리고 데이터의 출처와 주제 등에 대해 가장 먼저 조사한다.
-
데이터의 크기 확인
데이터의 크기에 따라서 처리할 방식이 달라지기 때문에 크기 확인이 필요하다.
(데이터가 너무 크거나 전체 데이터를 사용할 수 없는 경우에는 샘플링된 데이터를 분석하는 것이 좋은 대안이 될 수 있다.)
-
데이터의 구성 요소(피처) 살펴보기
데이터를 구성하는 요소인 피처를 살펴본다. 어떤 학급의 신체검사 결과를 기록한 데이터가 있을 때, 키와 몸무게 그리고 시력 같은 측정 요소가 피처의 예이다.
데이터의 속성 탐색하기
피처의 속성 탐색
데이터에 질문을 던지면서 속성을 탐색할 수 있다. 예를 들어 “우리 반의 평균 키는 몇이나 될까?”와 같은 질문들 말이다. 평균뿐만 아니라 표준편차, 중앙값, 등 여러가지 값들이 속성이 될 수 있다.
피처 간의 상관 관계 탐색
여러 개의 피처가 서로에게 미치는 영향력을 알아보는 단계이다. “우리 학급은 비만이 아닐까?”라는 질문을 했다면 ‘몸무게’라는 피처 뿐만 아니라 “키”라는 피처도 살펴봐야 한다. 이런 상황에서 필요한 것이 피처 간의 상관 관계 탐색이다. 데이터분석에서는 이를 통계적인 방법으로 알아볼 수 있으며, 이는 피처 간의 공분산, 혹은 상관 계수와 같은 개념을 포함한다.
탐색한 데이터의 시각화
지금까지의 과정을 통해 어느 정도 데이터를 파악했다면 이를 효과적으로 시각화할 차례이다. 데이터 시각화는 수치적 자료만 가지고는 파악하기 힘든 패턴이나 인사이트를 발견하는 데 유용하다.
참고자료
책: 이것이 데이터 분석이다 with 파이썬 (윤기태 저)
Leave a comment