본문 바로가기
반응형

데이터분석3

[책] 헬로 데이터과학 -(5) 탐색적 데이터 분석 헬로 데이터과학 - (5) "진정한 발견은 새로운 장소를 찾는 것이 아니라, 새로운 관점을 찾는 것이다" - 마르셀 프루스트 데이터가 수집되었다면, 먼저 그 데이터의 모든 측면을 철저히 이해하고 노력해야한다. 그것이 데이터 수집 후의 첫번째 과정이라고 할 수있다. 따라서,수집한 데이터가 들어왔을 때,그 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 탐색적 데이터 분석(Exploratory Data Analysis, EDA)이라고 부른다. 탐색적 데이터 분석이 필요한 이유는 다음과 같이 정리할 수 있다.데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.이를 통해, 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 .. 2017. 11. 5.
[책] 헬로 데이터과학 -(4) 문제 정의와 데이터 수집 및 준비 헬로 데이터과학 - (4) "만약 나에게 문제 해결을 위해 한 시간이 주어진다면, 나는 55분 동안 문제에 대해 생각하고 5분 동안 해결책에 대해 생각하겠다" - 알버트 아인슈타인 우리가 데이터를 분석하는 것은 목적은, 아마도 많은 경우에, 어떤 문제를 해결하기 위함일 것이다.문제를 해결하는 것은 문제를 잘 정의하는 것으로 부터 시작한다. 대체로 문제를 해결하는 단계는 아래와 같이 이루어진다.주어진 문제를 명확히 정의한다. 주어진 문제를 정확히 이해해야만 필요한 데이터와 접근 방법을 결정할 수 있다.문제 해결에 필요한 데이터를 구한다. 이미 존재하는 경우에는 기존의 데이터에서 필요한 부분을 추철하고, 그렇지 않은 경우에는 직접 수집한다.데이터를 분석에 적합한 형태로 가공한다. 수집 및 추출된 데이터는 대.. 2017. 10. 25.
[책] 헬로 데이터과학 -(2) 유의확률, 유의수준 헬로 데이터과학 - (2) 데이터를 분석할 때 가장 많이 나오는 개념 중 하나이며, "헬로 데이터 과학" 책을 읽고 이해함에 있어서도 필수적으로 이해하고 있어야 하는 개념이 바로 유의확률(significance probability)이며, p값(p-value)라고도 한다. 유의확률은 가설(H0, H1)과 연계되는 개념으로,실제로는 H0가 참인데도 불구하고, H1이라고 잘못 선택할 확률(제1종 오류를 범할 확률)을 의미한다.다르게 표현하면 "H1이다"라고 주장했는데, 그것이 틀릴 확률이다. 예를들어, 남자의 키와 여자의 키를 비교해서 남자가 여자보다 더 키가 큰지를 검정하는 경우를 생각해보면, 가설은 다음과 같을 수 있다. H0: 남자의 키와 여자의 키는 같다.H1: 남자의 키와 여자의 키는 다르다. 실제.. 2017. 10. 12.
반응형