반응형
헬로 데이터과학 - (4)
"만약 나에게 문제 해결을 위해 한 시간이 주어진다면,
나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다"
- 알버트 아인슈타인
우리가 데이터를 분석하는 것은 목적은, 아마도 많은 경우에, 어떤 문제를 해결하기 위함일 것이다.
문제를 해결하는 것은 문제를 잘 정의하는 것으로 부터 시작한다.
대체로 문제를 해결하는 단계는 아래와 같이 이루어진다.
- 주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.
- 문제 해결에 필요한 데이터를 구한다. 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추철하고, 그렇지 않은 경우에는 직접 수집한다.
- 데이터를 분석에 적합한 형태로 가공한다. 수집 및 추출된 데이터는 대부분 적절한 가공과정을 거쳐야 다양한 분석 작업에 사용할 수 있다.
- 가공된 데이터를 분석하여 해결책을 유도한다.
- 해결책을 여러 가지 방식으로 구현한다.
- 관계자에게 결과를 적절한 형태로 소통한다.
4번까지가 문제 정의에서 해결책을 유도하는 과정이다.
많은 경우 이렇게 유도된 해결책을 현실 세계에서 구현해내야 된다. 그 과정이 5번이다.
마지막으로 문제 해결의 결과를 관계자에게 알리고 적절히 소통하는 6번 작업이 필수다.
위의 과정은 일반적인 가이드라인이고, 실제로는 각 단계가 몇 번은 반복되어야 다음 단계로 넘어가는 경우가 많다.
앞서 살펴본 데이터 문제 해결의 과정에서, 데이터 분석은 다시 여러 단계로 나누어 생각해볼 수 있다.
이 단계 각각은 데이터 분석의 주요 기법인 탐색적 분석 / 통계적 추론 / 기계학습과 대응된다.
- 주어진 데이터를 탐색하며 다양한 패턴을 발견하고 가설을 세우는 단계 (탐색적 데이터 분석)
- 현상에 대한 가설을 다양한 실험으로 검정해보는 단계 (통계적 추론)
- 우리가 관심을 갖는 현상을 예측하는 단계 (기계학습)
보통 탐색적 분석은 데이터 문제 해결의 기본이지만, 분석의 목표에 따라 통계적 추론이나 기계학습이 추가되는 것이 보통이다.
다음 포스팅에서, 이 세가지 단계(탐색적 데이터 분석, 통계적 추론, 기계학습)에 대해서 조금 더 자세히 알아보도록 하겠다.
반응형
'Data Science > Data Analysis' 카테고리의 다른 글
[책] 헬로 데이터과학 -(5) 탐색적 데이터 분석 (0) | 2017.11.05 |
---|---|
[책] 헬로 데이터과학 -(3) 데이터 과학 입문 (0) | 2017.10.20 |
[책] 헬로 데이터과학 -(2) 유의확률, 유의수준 (0) | 2017.10.12 |
[책] 헬로 데이터과학 -(1) 평균, 표준편차, 분산 (0) | 2017.10.01 |
[책] 빅데이터 분석대로 미래는 이루어진다 (0) | 2017.09.25 |