스파크를 개발할 때,
윈도우 환경에서 개발을 하고, Jar 파일을 만들어서
리눅스에 배포하여 실행시키는 방식을 꽤 많이 하는 것 같다.
우리나라 사람들이 유독 윈도우를 많이 써서 그런건가..
아무튼, 그래서 오늘은 윈도우 환경에서 스파크를 설치하는 것을 해본다.
스파크를 실행시키기 위해서는 기본적으로 설치해줘야 하는 것들이 몇 가지 있다.
Scala, Java(JDK), Winutils 또는 Hadoop, Spark
참고로, 스파크는 하둡을 설치하지 않고도 설치하여 실행이 가능하다.
다만 그러기 위해선, Winutils을 따로 다운로드 받아서 설치해야한다.
(하둡을 설치하면 그 안에 Winutils가 있다.)
그리고,
hadoop-2.7.1 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는
spark-2.2.0-bin-hadoop2.7 버전을 사용하는 것이 좋고,
hadoop-2.6.0 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는
spark-1.6.0-bin-hadoop2.6 버전을 사용하는 것이 좋다.
그럼 이제 차례대로 설치 방법을 보자.
1. Scala
- 다운로드 : http://downloads.lightbend.com/scala/2.11.8/scala- 2.11.8.msi
- 환경변수
- 사용자 변수
- 변수 : SCALA_HOME
- 값 : C:\Program Files (x86)\scala
- 시스템 변수
- 변수 : PATH
- 값 : C:\Program Files (x86)\scala\bin
2. Java
- 다운로드 : http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
- 환경변수
- 사용자 변수
- 변수 : JAVA_HOME
- 값 : C:\Program Files\Java\jdk1.8.0_91
- 시스템 변수
- 변수 : PATH
- 값 : C:\Program Files\Java\jdk1.8.0_91\bin
3. Hadoop
- 다운로드 :
- 환경변수
- 사용자 변수
- 변수 : HADOOP_HOME
- 값 : C:\Hadoop\winutils-master\hadoop-2.7.1
(본인이 압축을 푼 위치 입력, 이 때 /bin 폴더 바로 위의 위치까지를 입력한다) - 시스템 변수
- 변수 : PATH
- 값 : C:\Hadoop\winutils-master\hadoop-2.7.1\bin
(본인이 압축을 푼 위치에서 bin 폴더를 포함한 위치 입력)
여기서 추가적으로 해줘야 하는 작업이 있다.
C:\tmp\hive 에 디렉토리를 생성하고, 아래와 같이 접근권한을 부여해야한다.
C:\Hadoop\winutils-master\hadoop-2.7.1\bin>
winutils.exe chmod -R 777 C:\tmp\hive
그리고, local Derby-based metastore 인 metastore_db 디렉토리가 있는지 검색해보고, 만약에 있다면 해당 디렉토리를 삭제한다.
만약 위의 작업을 해주지 않으면, 스파크까지 설치한 후 실행시켜도
Error : not found : value spark 혹은 Error : not found : value sc 와 같은 에러가 발생하면서
프로그램이 제대로 작동되지 않는다.
4. Spark
- 다운로드 : http://spark.apache.org/downloads.html
- 환경변수
- 사용자 변수
- 변수 : SPARK_HOME
- 값 : C:\Hadoop\spark-2.2.0-bin-hadoop2.7
(본인이 압축을 푼 위치 입력, 이 때 /bin 폴더 바로 위의 위치까지를 입력한다) - 시스템 변수
- 변수 : PATH
- 값 : C:\Hadoop\spark-2.2.0-bin-hadoop2.7\bin
(본인이 압축을 푼 위치에서 bin 폴더를 포함한 위치 입력)
실행은 스파크를 설치한 위치의 bin 디렉토리로 가서
(예를 들어, C:\Hadoop\spark-2.2.0-bin-hadoop2.7\bin)
spark-shell을 입력하면, 아래와 같은 화면을 확인할 수 있고,
sc를 입력했을때 화면 하단과 같이 나타나면 정상동작하는 것이다.
또 화면 상단과 같이 Spark context available as 'sc' 라는 문구가 나와야 정상동작이다.
참고
[1] http://www.ics.uci.edu/~shantas/Install_Spark_on_Windows10.pdf
[2] https://www.youtube.com/watch?v=Rh62AHznlnc
'Data Science > Spark Basic' 카테고리의 다른 글
IntelliJ + Maven + Scala 으로 Jar 파일 만들기 (0) | 2017.10.27 |
---|---|
아파치 스파크 개발 환경 구축 및 예제 실습 - IntelliJ + Maven + Scala + Mac (0) | 2017.10.26 |
아파치 스파크 입문 (0) | 2017.10.17 |