본문 바로가기
반응형

아파치 스파크6

스파크 MLlib + 선형회귀법, Spark MLlib + Linear Regression - (2) Feature extraction 앞서 (1)편에서 얘기했던, 4가지의 과정 중에서 이번에는 Feature extraction에 대해서 얘기해볼것이다. (가장 첫번째 단계인 데이터 수집 및 준비 단계는 이미 이루어졌다고 가정한다.) 0. Feature Extraction Feature란, 어떤 결과의 원인에 해당하는 일이라고 설명했다. 우리가 머신러닝을 하는 대표적인 이유가 예측을 하기 위한 것이다. 그렇다면 "어떤 조건에 대한", "어떤 값에 대한" 예측을 할 것인지가 정해져야 하는데, 그 "조건"과 "값"이 원인 요소에 해당하는 것이고. 그것을 우리는 Feature라고 한다. 만약에 우리가 지도 학습을 하게 되는거라면, 다양한 이미 답이 만들어져 있는 것으로 학습을 시키게 될 것이다. 가령, 온도와 아이스크림 판매량 데이터를 가지고,.. 2017. 12. 15.
스파크 스트리밍 + 카프카, Spark streaming + Kafka 요즘에 구상하고 있는 연구의 모델이, 각 서버로 부터 실시간 로그를 받아서 값을 분석하여 최적화하는거라 스파크 스트리밍을 보고있다. 스파크 스트리밍을 선택하자라는 결론에 도달했을때, 입력 소스는 어떻게 할 것인가 하는 고민이 있었다. 뭐, 다양한 방법이 있을 수 있겠지만. 요새 핫하다는 아파치 카프카를 사용해봐야겠다고 마음먹었다. (엔지니어라면 핫한 기술에 손이 가기 마련이니..) 무엇보다, 스파크 공식 홈페이지에서 카프카와 연동하는 방법에 대해 아주 잘 기술되어 있어서 기술을 적용하는데에 있어서도 어려움이 상대적으로 적다고 할 수 있다. 그렇다면, 아파치 카프카(Apache Kafka)는 무엇일까.카프카는 대용량 실시간 처리를 위해 사용하는 메시징 시스템이며, Pub-Sub 구조를 이용한다.요즘 잘나간.. 2017. 11. 16.
IntelliJ + Maven + Scala 으로 Jar 파일 만들기 이전에 포스팅했던, "아파치 스파크 개발 환경 구축 및 예제 실습 - IntelliJ + Maven + Scala + Mac"에서IntelliJ 상에서 프로그램을 실행(Run)시키는 것을 해보았다. IDE 툴을 이용하여, 프로그램을 개발하고 간단한 테스트를 하는 것은 문제없지만만약에 그 프로그램을 어딘가 배포시키려는 목적이 있다면, 아마도 Jar 파일 추출시켜야 할 것이다. 나의 경우에도 연구실의 내 자리에 있는 PC에서 개발 및 간단한 테스트를 진행하고,본격적인 실험을 위해선 그 프로그램을 서버에 포팅시키는 작업이 필요했다. 그래서 Jar 파일을 만든 후, 터미널에서 spark-submit을 이용해 실행시키기 위한 긴.... 여정을 떠났다. 이번 포스팅에서 그 길었던 여정에 대해서 이야기해볼 참이다. .. 2017. 10. 27.
아파치 스파크 (Apache Spark) 설치 - Window 10 환경 스파크를 개발할 때, 윈도우 환경에서 개발을 하고, Jar 파일을 만들어서 리눅스에 배포하여 실행시키는 방식을 꽤 많이 하는 것 같다. 우리나라 사람들이 유독 윈도우를 많이 써서 그런건가.. 아무튼, 그래서 오늘은 윈도우 환경에서 스파크를 설치하는 것을 해본다. 스파크를 실행시키기 위해서는 기본적으로 설치해줘야 하는 것들이 몇 가지 있다.Scala, Java(JDK), Winutils 또는 Hadoop, Spark 참고로, 스파크는 하둡을 설치하지 않고도 설치하여 실행이 가능하다.다만 그러기 위해선, Winutils을 따로 다운로드 받아서 설치해야한다.(하둡을 설치하면 그 안에 Winutils가 있다.) 그리고, hadoop-2.7.1 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는 .. 2017. 10. 26.
반응형