2015年9月15日 星期二

Spark on Ubuntu 離線安裝(第一次就上手)

日前老闆告訴我客戶有Big Data的需求,想使用Spark...
於是乎我就開始了我第一個學習的旅程
首先 由於客戶的環境是封閉的 也就是說我想安裝的軟體都必須「離線」安裝
參考了一些教學 發現大多數的作業系統是採用 Ubuntu
所以我使用 Ubuntu15.04版,以下是安裝的幾個重點我是使用VM的方式
我自己的電腦是Windows

1.安裝OS的過程中,會出現請你config network,這邊可以先設定好你的static ip,gateway等等

這樣系統啟動的時候你就已經設定好ip了
如果不幸的你略過了這些設定或者設定錯了,你可以參考下面網址
Ubuntu網路設定 或是 Red Hat網路設定 這2個網站的主要是打開2個檔案更改設定
更改完使用 sudo /etc/init.d/networking restart 指令 重新啟動網路服務 就會吃到設定
#如果不幸仍未能成功請重啟OS看看
1.1Ubuntu安裝至後面會請你選要安裝的軟體,請把 OpenSSH勾選安裝起來,如果有需要FTP也可裝,主要是我們需要使用OpenSSH連線及傳送檔案

2.至Spark官網 download 較新的Spark ,Type選 per-built的版本,可以省時間

3.由於 Spark需要使用到JDK,所以可至Download JAVA官方download至自己的電腦(Windows)
#其實OS裝完裡面已有內建的OpenJDK了,但習慣上還是Oracle的據說Complier比較不易出錯
4.使用你的root user登入Ubuntu後建立一個目錄放我們要傳過去的檔案(Spark&JDK),我使用
#傳送檔案我是使用WinSCP工具(可自己搜尋download)

以下是我的一連串的指令


cd /
sudo mkdir install_source
cd install_source
# tar -zxvf spark-1.4.0-bin-hadoop2.6.tgz
# sudo mv spark-1.4.0-bin-hadoop2.6 /usr/lib
tar -zxvf jre1.8.0_60.gz
# sudo mv jre_1.80_60 /usr/lib
# vi /etc/bash.bashrc

最後重新連線

試著
# echo $JAVA_HOME
# java -version
如果不幸的 home是正常的但version仍是採用內建的OpenSDK

最後試著執行 #Spark-shell 看是否可正常啟動 Spark
啟動後如下圖

恭喜至此你已經安裝成功了

既然已經安裝成功,於是我們想要試著執行第一支範例程式
首先我們先離開spark-shell採用指令
# exit
接著執行指令
#run-example SparkPi 4
如下圖會出現Spark內建的範例程式,計算圓周率以及啟動一個WebUI在4040 port



至於真正的範例程式在
/usr/lib/spark-1.4.0-bin-hadoop2.6/examples/src/main/scala/org/apache/spark/examples
路徑下 檔案 SparkPi.scala
有興趣的可以 vi 一下,觀察裡面的 code你會發現 Spark的寫法比起 Hadoop寫法精簡許多喔!

恭喜你已經完成了第一個 Spark 範例程式的執行嘍^^






沒有留言:

張貼留言