본문 바로가기
반응형

전체 글60

[책] 헬로 데이터과학 -(5) 탐색적 데이터 분석 헬로 데이터과학 - (5) "진정한 발견은 새로운 장소를 찾는 것이 아니라, 새로운 관점을 찾는 것이다" - 마르셀 프루스트 데이터가 수집되었다면, 먼저 그 데이터의 모든 측면을 철저히 이해하고 노력해야한다. 그것이 데이터 수집 후의 첫번째 과정이라고 할 수있다. 따라서,수집한 데이터가 들어왔을 때,그 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 탐색적 데이터 분석(Exploratory Data Analysis, EDA)이라고 부른다. 탐색적 데이터 분석이 필요한 이유는 다음과 같이 정리할 수 있다.데이터의 분포 및 값을 검토함으로써 데이터가 표현하는 현상을 더 잘 이해하고, 데이터에 대한 잠재적인 문제를 발견할 수 있다.이를 통해, 본격적인 분석에 들어가기에 앞서 데이터를 다시 수집하거나 추가로 .. 2017. 11. 5.
아파치 카프카 (Apache Kafka) 설치 및 예제 실행 스파크 스트리밍과 같은 것을 이용하기 위해서는, 입력(Input) 도구로 아파치 카프카(Apache Kafka)를 많이 쓴다. 이번 포스팅에는 그 아파치 카프카를 설치하고, 간단한 예제를 실행시켜보는 것까지 하겠다. 시스템 환경은Macbook Air OS X EI Capitan version 10.11.6 이다. 1. 카프카 다운로드 아파치 카프카 공식 홈페이지에 가면, 다운로드 페이지(https://kafka.apache.org/downloads)에서 다운로드 받을 수 있다. 나의 경우 Binary로 Scala 2.11 버전을 다운받았다.다운로드 후, 압축을 풀면 끝. 2. 카프카 브로커(서버) 실행 카프카는 주키퍼(zookeeper)를 사용한다. 만약 사용하는 시스템에 현재 주키퍼가 따로 없다면, 내.. 2017. 11. 1.
IntelliJ + Maven + Scala 으로 Jar 파일 만들기 이전에 포스팅했던, "아파치 스파크 개발 환경 구축 및 예제 실습 - IntelliJ + Maven + Scala + Mac"에서IntelliJ 상에서 프로그램을 실행(Run)시키는 것을 해보았다. IDE 툴을 이용하여, 프로그램을 개발하고 간단한 테스트를 하는 것은 문제없지만만약에 그 프로그램을 어딘가 배포시키려는 목적이 있다면, 아마도 Jar 파일 추출시켜야 할 것이다. 나의 경우에도 연구실의 내 자리에 있는 PC에서 개발 및 간단한 테스트를 진행하고,본격적인 실험을 위해선 그 프로그램을 서버에 포팅시키는 작업이 필요했다. 그래서 Jar 파일을 만든 후, 터미널에서 spark-submit을 이용해 실행시키기 위한 긴.... 여정을 떠났다. 이번 포스팅에서 그 길었던 여정에 대해서 이야기해볼 참이다. .. 2017. 10. 27.
아파치 스파크 (Apache Spark) 설치 - Window 10 환경 스파크를 개발할 때, 윈도우 환경에서 개발을 하고, Jar 파일을 만들어서 리눅스에 배포하여 실행시키는 방식을 꽤 많이 하는 것 같다. 우리나라 사람들이 유독 윈도우를 많이 써서 그런건가.. 아무튼, 그래서 오늘은 윈도우 환경에서 스파크를 설치하는 것을 해본다. 스파크를 실행시키기 위해서는 기본적으로 설치해줘야 하는 것들이 몇 가지 있다.Scala, Java(JDK), Winutils 또는 Hadoop, Spark 참고로, 스파크는 하둡을 설치하지 않고도 설치하여 실행이 가능하다.다만 그러기 위해선, Winutils을 따로 다운로드 받아서 설치해야한다.(하둡을 설치하면 그 안에 Winutils가 있다.) 그리고, hadoop-2.7.1 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는 .. 2017. 10. 26.
반응형