본문 바로가기
반응형

spark streaming2

스파크 스트리밍 + 카프카, Spark streaming + Kafka 요즘에 구상하고 있는 연구의 모델이, 각 서버로 부터 실시간 로그를 받아서 값을 분석하여 최적화하는거라 스파크 스트리밍을 보고있다. 스파크 스트리밍을 선택하자라는 결론에 도달했을때, 입력 소스는 어떻게 할 것인가 하는 고민이 있었다. 뭐, 다양한 방법이 있을 수 있겠지만. 요새 핫하다는 아파치 카프카를 사용해봐야겠다고 마음먹었다. (엔지니어라면 핫한 기술에 손이 가기 마련이니..) 무엇보다, 스파크 공식 홈페이지에서 카프카와 연동하는 방법에 대해 아주 잘 기술되어 있어서 기술을 적용하는데에 있어서도 어려움이 상대적으로 적다고 할 수 있다. 그렇다면, 아파치 카프카(Apache Kafka)는 무엇일까.카프카는 대용량 실시간 처리를 위해 사용하는 메시징 시스템이며, Pub-Sub 구조를 이용한다.요즘 잘나간.. 2017. 11. 16.
스파크 스트리밍, Spark Streaming 1. 배경 모바일 디바이스와 더불에 IoT 시대로 들어서면서, 데이터는 양만큼이나 빠른 속도가 중요해졌다. 빅데이터가 만족시켜야 하는 3가지 요소, (3V, Volume, Velocity, Variety), 중 속도(Velocity)의 중요성이 더욱 커졌다는 것이다. 그에 따라, 우리가 평소에도 많이 들어본 것 처럼, "실시간" 처리가 중요해졌고, 그와 밀접한 기술적 명명인 "스트림" 처리가 중요해졌다. 스파크 스트리밍은 그런 니즈로 부터 나왔다고 할 수 있다. 스파크 스트리밍을 통해서, 우리는 사용자로 부터 혹은 서버로 부터 실시간으로 데이터를 받아들여서 처리하고 분석할 수 있다. 2. 스파크 스트리밍과 DStream RDD의 개념을 바탕으로 구축된 스파크처럼 스파크 스트리밍은 DStream (Disc.. 2017. 11. 16.
반응형