Data Science/Data Analysis

[책] 헬로 데이터과학 -(1) 평균, 표준편차, 분산

알파해커 테크노트 2017. 10. 1. 03:32
반응형



헬로 데이터과학 - (1)




데이터과학에 관련한 두번째 책으로 "헬로 데이터과학"을 선택했다.


이 책에서 저자는 빅데이터, 데이터과학이라는 것이 "우리가 상상하는 것"만큼 

어렵고, 멀리있는 것이 아니라는 것을 강조하며, 초보자도 충분히 이해할 수 있게 설명한다.


그렇다고, 추상적인 이야기나 하며 개념 소개만 늘어놓지도 않는다.


데이터를 분석하는 과정에서, 

우리가 중고등학교 시절 배웠던 기본적인 통계에 관한 지식이 어떻게 활용되는지 보여준다.


따라서,

본격적인 이야기에 들어가기 전에, 그 통계에 관한 기본적인 지식에 대해 먼저 이야기하고자 한다.


바로, 평균/표준편자/분산 이야기다.

이것들에 대한 설명은 조대협님의 블로그에 아주 설명이 잘되어있어 그 내용을 옮긴다.






표준 편차란, 쉽게 말하면 평균(mean) 에 대한 오차이다. 


즉, 실제 데이타 값이 평균을 기준으로 할때 얼마나 들쭉 날쭉하냐를 나타내는 것이다. 

평균이 m이고, 표준편차가 3이라고 할때, 실제 값은 m+-3 값이라는 것이다.


먼저 편차랑, 원래의 값에서 평균을 뺀 값인데, 편차는 +도 될 수 있고, -도 될 수 있다.


그러면 우리가 구하고자 하는 표준편차라는 것은 평균 값이 실제 값에서 부터 얼마나의 오류가 있느냐 인데, 예를 들어 4개의 데이타가 있을 때 평균을 m이라고 가정하고, 각 값이 m+1,m-2,m+3,m-4 라고 할때


편차의 합은 실제로 1+2+3+4=10 이 되야 하지만, 실제 값이 -2,-4 가 있기 때문에, 

(값-m)을 합한 값으로 계산해보면 1-2+3-4로 전혀 엉뚱한 값이 나온다.


그래서 이 음수를 양수화해야 하는데, 그러한 방법중의 하나가 제곱이다.

편차들을 합하기전에 제곱을 해서 합하면 1+4+9+16이된다. 


이것이 바로 분산(Variance)으로 "편차의 제곱의 합"이다.






그렇다면 분산(Variance)을 바로 쓰지 않고, 표준편차를 구하는 이유는? 


분산은 편차에 제곱을 하여 계산을 하였기 때문에, 실제  값에서 너무 멀어져 있다. 

그래서 실제 값으로 근접 시키기 위해서 제곱근(루트)를 씌워준 것이다. 

(분산에서 제곱했으니, 반대로 제곱근을 씌운다.)


즉, 분산에 루트를 씌운것이 표준 편차(Standard deviation)이며, 

표준편차는 평균으로 부터 원래 데이타에 대한 오차범위의 근사값이다. 






여기서 평균,분산,표준편차의 개념에서 모집단과 표본의 개념을 짚고 넘어갈 필요가 있다.


통계학이란 굳이 다 조사하지 않더라도, 대충의 결과를 알 수 있다. 일종의 prediction 의 개념이다.

  • 조사대상인 모집단(population) 전체를 조사하는 경우를 전수조사라고 한다.

  • 모집단이 커서 전수조사가 어려운 경우, 집단의 특성을 추정하기 위해서 일부 표본(sample)만 추출하여 하는 조사를 표본조사라고 한다. 이렇게 표본을 조사함으로써, 원래 모집단의 특성을 추측하는 것을 추정이라고 한다. (근대 통계학의 추론통계학 - inferential statistics의 개념)





표본을 추출하는데도 여러가지 방법이 있다

  • 단순임의추출(simple random sampling) : 항아리에 공을 넣고, 아무 공이나 꺼낸다.

  • 복원 추출(sampling with replacement) : 항아리에서 공을 꺼낸 후, 꺼낸 공을 다시 넣고 공을 꺼낸다.

  • 비복원 추출(sampling without replacement) : 항아리에서 공을 꺼낸 후 다시 넣지 않고 다른 공을 꺼낸다.

그외에도 층화 임의 추출(Stratified random sampling),포아송 추출, 계통 추출(Systematic sampling)

표본 추출 방법에 대해서는 나중에 다시 다룬다.



반응형