본문 바로가기
반응형

아파치2

스파크 MLlib + 선형회귀법, Spark MLlib + Linear Regression - (2) Feature extraction 앞서 (1)편에서 얘기했던, 4가지의 과정 중에서 이번에는 Feature extraction에 대해서 얘기해볼것이다. (가장 첫번째 단계인 데이터 수집 및 준비 단계는 이미 이루어졌다고 가정한다.) 0. Feature Extraction Feature란, 어떤 결과의 원인에 해당하는 일이라고 설명했다. 우리가 머신러닝을 하는 대표적인 이유가 예측을 하기 위한 것이다. 그렇다면 "어떤 조건에 대한", "어떤 값에 대한" 예측을 할 것인지가 정해져야 하는데, 그 "조건"과 "값"이 원인 요소에 해당하는 것이고. 그것을 우리는 Feature라고 한다. 만약에 우리가 지도 학습을 하게 되는거라면, 다양한 이미 답이 만들어져 있는 것으로 학습을 시키게 될 것이다. 가령, 온도와 아이스크림 판매량 데이터를 가지고,.. 2017. 12. 15.
아파치 스파크 입문 아파치 스파크(Apache Spark)는 빅데이터처리를 위한 오픈소스 병렬분산처리 플랫폼이다. 빅데이터를 이용하여 원하는 결과를 얻고자할 때나, 스트리밍을 이용하여 머신러닝을 효과적으로 수행하려고할 때 주로 사용된다. 스파크에 대한 더욱 자세한 이야기에 들어가기 앞서,나프다(나는 프로그래머다)에 올라온 "Apache Spark로 시작하는 머신러닝 입문" 동영상을 먼저 공유한다. 책이나 인터넷 자료를 통해서도 개념을 이해하고 익힐 수 있겠지만,필자의 경우 시청각 자료로 익히는 편이 훨씬 수월했고,동영상의 발표자 김도남님의 말대로, 개발자는 역시 타이핑을 통해 익히는 것이왕도이자 정도가 아닌가 싶다. 2017. 10. 17.
반응형