선형 회귀, Linear Regression
우선, 선형 회귀를 분석한다고 할때. "회귀 분석"의 의미는 둘 또는 그 이상의 변수들 간의 인과 관계를 파악하는 것을 의미한다. 가령, 날씨와 아이스크림 판매량의 관계를 분석한다고 했을때.날씨가 더우면 -> 아이스크림 판매량이 올라간다.날씨가 추우면 -> 아이스크림 판매량이 내려간다.와 같이 밀접한 인과 관계를 분석하는 것을 회귀 분석한다고 말한다. 이때, 회귀 분석은, 둘 또는 그 이상의 변수들 간의 상관 관계를 파악하는, 상관 분석에 포함되는 개념이다. (상관 분석의 예는, 어떤 학생의 수학 점수와 영어 점수 간의 관계 같은 것이다. 어떤 관계가 있다고 하더라도, 인과 관계는 형성될 수 없는 관계를 나타낼 때. 상관 관계는 있으나, 인과 관계는 없다고 말할 수 있다) 그럼, 요즘 머신 러닝에서 가장..
2017. 11. 23.
스파크 스트리밍, Spark Streaming
1. 배경 모바일 디바이스와 더불에 IoT 시대로 들어서면서, 데이터는 양만큼이나 빠른 속도가 중요해졌다. 빅데이터가 만족시켜야 하는 3가지 요소, (3V, Volume, Velocity, Variety), 중 속도(Velocity)의 중요성이 더욱 커졌다는 것이다. 그에 따라, 우리가 평소에도 많이 들어본 것 처럼, "실시간" 처리가 중요해졌고, 그와 밀접한 기술적 명명인 "스트림" 처리가 중요해졌다. 스파크 스트리밍은 그런 니즈로 부터 나왔다고 할 수 있다. 스파크 스트리밍을 통해서, 우리는 사용자로 부터 혹은 서버로 부터 실시간으로 데이터를 받아들여서 처리하고 분석할 수 있다. 2. 스파크 스트리밍과 DStream RDD의 개념을 바탕으로 구축된 스파크처럼 스파크 스트리밍은 DStream (Disc..
2017. 11. 16.