본문 바로가기
Data Science/Statistics

선형 회귀, Linear Regression

by 알파해커 2017. 11. 23.
반응형

우선, 선형 회귀를 분석한다고 할때. 

"회귀 분석"의 의미는 둘 또는 그 이상의 변수들 간의 인과 관계를 파악하는 것을 의미한다. 


가령, 날씨와 아이스크림 판매량의 관계를 분석한다고 했을때.

  • 날씨가 더우면 -> 아이스크림 판매량이 올라간다.
  • 날씨가 추우면 -> 아이스크림 판매량이 내려간다.
와 같이 밀접한 인과 관계를 분석하는 것을 회귀 분석한다고 말한다.


이때, 회귀 분석은, 둘 또는 그 이상의 변수들 간의 상관 관계를 파악하는, 상관 분석에 포함되는 개념이다. (상관 분석의 예는, 어떤 학생의 수학 점수와 영어 점수 간의 관계 같은 것이다. 어떤 관계가 있다고 하더라도, 인과 관계는 형성될 수 없는 관계를 나타낼 때. 상관 관계는 있으나, 인과 관계는 없다고 말할 수 있다)


그럼, 요즘 머신 러닝에서 가장 일반적인 기술로 많이 언급되는 선형회귀/회귀식/선형회귀모델/선형회귀문제(다 같은 의미다)는 무엇일까.


데이터 분포를 분석했을때, 앞서 언급한 관계를 선형적인 그래프(ex: y=a1+a2x)로 나타낼 수 있는 형태를 의미하는 것이다. 이렇게 선형적인 그래프로 나타낼 수 있다면, 현재 가지고 있는 데이터값 이외의 상황에서도 예측을 할 수 있게 된다.


그러니까, 아이스크림 예제로 다시 돌아가자면,

현재가지고 있는 데이터는 온도가 25도일 때와 28도 일 때의 판매량이라고 가정해보자.

이것을 선형적인 그래프로 나타낸다면, 현재가지고 있지 않은 데이터인, 30도 일 때의 판매량도 예측할 수 있게 되는 것이다.




그럼 이제 다른 예제를 가지고, 머신 러닝이 어떤 흐름으로 작동되는지 살펴보자.

아래와 같은 상황이 있다고 해보자.


선형 회귀를 이용하여 예측 모델을 만들어야 하는 상황은, 집 평수당 가격이다.

먼저 학습을 시킬 데이터셋을 구했다고 가정한다.


이때, 원인에 해당하는 평수는 input variable로써 feature라고 불리고,

그 결과에 해당하는 가격은 output variable로써 targeted value라고 불린다.


이 데이서셋을 선형 회귀 알고리즘에 넣으면, 앞서 언급한 선형적인 그래프를 만들 수 있다.

그러헥 선형 그래프가 만들어지면, 앞으로 feature에 다른 값을 넣어도, 그 그래프를 통해 가격을 추측/추정(hypothesis)할 수 있게 되는 것이다.


아래의 그림에서, 빨간색 "X" 표시가 학습(Training)을 시키기 위한 데이터셋에 있는 값들을 의미한다고 해보자.


이때 만들어져야 하는 선형그래프는 그 데이터셋에 있는 값들을 완벽하게 만족할 수는 없어도, 가능하면 최대한 만족시켜야한다.


다시말해, 선형 그래프 y=a1+a2x 가 있다고 했을때, 데이터셋에 있는 실제 값들과 오차를 가장 적게 만드는 a1과 a2를 구하는 것이다. 





그 방법을 수식으로 나타내면  아래와 같이 표현될 수 있다고 한다.



이 수식에 대한 자세한 이야기는 다음 포스팅에서 계속하겠다.




출처

[1] http://bcho.tistory.com/967

[2] https://www.youtube.com/watch?v=BQFEg_GaWMU





반응형

'Data Science > Statistics' 카테고리의 다른 글

조금 더 생각해보는 p-value  (0) 2017.10.13

댓글