Data Science/Data Analysis

[책] 헬로 데이터과학 -(4) 문제 정의와 데이터 수집 및 준비

알파해커 테크노트 2017. 10. 25. 02:17
반응형


헬로 데이터과학 - (4)



"만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 

나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다"


- 알버트 아인슈타인






우리가 데이터를 분석하는 것은 목적은, 아마도 많은 경우에, 어떤 문제를 해결하기 위함일 것이다.

문제를 해결하는 것은 문제를 잘 정의하는 것으로 부터 시작한다.


대체로 문제를 해결하는 단계는 아래와 같이 이루어진다.

  1. 주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.
  2. 문제 해결에 필요한 데이터를 구한다. 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추철하고, 그렇지 않은 경우에는 직접 수집한다.
  3. 데이터를 분석에 적합한 형태로 가공한다. 수집 및 추출된 데이터는 대부분 적절한 가공과정을 거쳐야 다양한 분석 작업에 사용할 수 있다.
  4. 가공된 데이터를 분석하여 해결책을 유도한다.
  5. 해결책을 여러 가지 방식으로 구현한다.
  6. 관계자에게 결과를 적절한 형태로 소통한다.

4번까지가 문제 정의에서 해결책을 유도하는 과정이다.
많은 경우 이렇게 유도된 해결책을 현실 세계에서 구현해내야 된다. 그 과정이 5번이다.
마지막으로 문제 해결의 결과를 관계자에게 알리고 적절히 소통하는 6번 작업이 필수다.

위의 과정은 일반적인 가이드라인이고, 실제로는 각 단계가 몇 번은 반복되어야 다음 단계로 넘어가는 경우가 많다.





앞서 살펴본 데이터 문제 해결의 과정에서, 데이터 분석은 다시 여러 단계로 나누어 생각해볼 수 있다.

이 단계 각각은 데이터 분석의 주요 기법인 탐색적 분석 / 통계적 추론 / 기계학습과 대응된다.

  1. 주어진 데이터를 탐색하며 다양한 패턴을 발견하고 가설을 세우는 단계 (탐색적 데이터 분석)
  2. 현상에 대한 가설을 다양한 실험으로 검정해보는 단계 (통계적 추론)
  3. 우리가 관심을 갖는 현상을 예측하는 단계 (기계학습)

보통 탐색적 분석은 데이터 문제 해결의 기본이지만, 분석의 목표에 따라 통계적 추론이나 기계학습이 추가되는 것이 보통이다.


다음 포스팅에서, 이 세가지 단계(탐색적 데이터 분석, 통계적 추론, 기계학습)에 대해서 조금 더 자세히 알아보도록 하겠다.





반응형