아파치 스파크 (Apache Spark) 설치

Data Science/Spark Basic

아파치 스파크 (Apache Spark) 설치 - Window 10 환경

알파해커 테크노트 2017. 10. 26. 17:10

스파크를 개발할 때,

윈도우 환경에서 개발을 하고, Jar 파일을 만들어서

리눅스에 배포하여 실행시키는 방식을 꽤 많이 하는 것 같다.

우리나라 사람들이 유독 윈도우를 많이 써서 그런건가..

아무튼, 그래서 오늘은 윈도우 환경에서 스파크를 설치하는 것을 해본다.

스파크를 실행시키기 위해서는 기본적으로 설치해줘야 하는 것들이 몇 가지 있다.

Scala, Java(JDK), Winutils 또는 Hadoop, Spark

참고로, 스파크는 하둡을 설치하지 않고도 설치하여 실행이 가능하다.

다만 그러기 위해선, Winutils을 따로 다운로드 받아서 설치해야한다.

(하둡을 설치하면 그 안에 Winutils가 있다.)

그리고,

hadoop-2.7.1 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는

spark-2.2.0-bin-hadoop2.7 버전을 사용하는 것이 좋고,

hadoop-2.6.0 버전 (혹은 그 버전의 winutils.exe)를 사용하는 경우에는

spark-1.6.0-bin-hadoop2.6 버전을 사용하는 것이 좋다.

그럼 이제 차례대로 설치 방법을 보자.

1. Scala

다운로드 : http://downloads.lightbend.com/scala/2.11.8/scala- 2.11.8.msi
환경변수

사용자 변수

변수 : SCALA_HOME
값 : C:\Program Files (x86)\scala

시스템 변수

변수 : PATH
값 : C:\Program Files (x86)\scala\bin

2. Java

다운로드 : http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
환경변수

사용자 변수

변수 : JAVA_HOME
값 : C:\Program Files\Java\jdk1.8.0_91

시스템 변수

변수 : PATH
값 : C:\Program Files\Java\jdk1.8.0_91\bin

3. Hadoop

다운로드 :
환경변수

사용자 변수

변수 : HADOOP_HOME
값 : C:\Hadoop\winutils-master\hadoop-2.7.1
(본인이 압축을 푼 위치 입력, 이 때 /bin 폴더 바로 위의 위치까지를 입력한다)

시스템 변수

변수 : PATH
값 : C:\Hadoop\winutils-master\hadoop-2.7.1\bin
(본인이 압축을 푼 위치에서 bin 폴더를 포함한 위치 입력)

여기서 추가적으로 해줘야 하는 작업이 있다.

C:\tmp\hive 에 디렉토리를 생성하고, 아래와 같이 접근권한을 부여해야한다.

C:\Hadoop\winutils-master\hadoop-2.7.1\bin>winutils.exe chmod -R 777 C:\tmp\hive

그리고, local Derby-based metastore 인 metastore_db 디렉토리가 있는지 검색해보고, 만약에 있다면 해당 디렉토리를 삭제한다.

만약 위의 작업을 해주지 않으면, 스파크까지 설치한 후 실행시켜도

Error : not found : value spark 혹은 Error : not found : value sc 와 같은 에러가 발생하면서

프로그램이 제대로 작동되지 않는다.

4. Spark

다운로드 : http://spark.apache.org/downloads.html
환경변수

사용자 변수

변수 : SPARK_HOME
값 : C:\Hadoop\spark-2.2.0-bin-hadoop2.7
(본인이 압축을 푼 위치 입력, 이 때 /bin 폴더 바로 위의 위치까지를 입력한다)

시스템 변수

변수 : PATH
값 : C:\Hadoop\spark-2.2.0-bin-hadoop2.7\bin
(본인이 압축을 푼 위치에서 bin 폴더를 포함한 위치 입력)

실행은 스파크를 설치한 위치의 bin 디렉토리로 가서

(예를 들어, C:\Hadoop\spark-2.2.0-bin-hadoop2.7\bin)

spark-shell을 입력하면, 아래와 같은 화면을 확인할 수 있고,

sc를 입력했을때 화면 하단과 같이 나타나면 정상동작하는 것이다.

또 화면 상단과 같이 Spark context available as 'sc' 라는 문구가 나와야 정상동작이다.

참고

[1] http://www.ics.uci.edu/~shantas/Install_Spark_on_Windows10.pdf

[2] https://www.youtube.com/watch?v=Rh62AHznlnc

'Data Science > Spark Basic' 카테고리의 다른 글

IntelliJ + Maven + Scala 으로 Jar 파일 만들기 (0)	2017.10.27
아파치 스파크 개발 환경 구축 및 예제 실습 - IntelliJ + Maven + Scala + Mac (0)	2017.10.26
아파치 스파크 입문 (0)	2017.10.17

현재글아파치 스파크 (Apache Spark) 설치 - Window 10 환경

Alphahacker Notes

https://profile.amazing-han.com/

파이썬, 스파크, AWS, metaclass, Data Science, 이진우 손경제, Python, hexagonal architecture, serverless, Clean Architecture, Lambda, apache spark, 클린아키텍쳐, 이진우의 손에 잡히는 경제, 소프트웨어 아키텍쳐, 클린 아키텍쳐, 데이터과학, 아파치 스파크, spark, 메타클래스,

Today :
Yesterday :

일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Alphahacker Notes