Leo Yeh's Blog

資料分析 Spark 處理 (1)

基本介紹

教學目標

學習如何在 Ubuntu 作業系統伺服器中安裝 Spark,接著透過 Python 語言以 Spark 進行資料基本操作。

使用教學

套件安裝

請先在 Amazon EC2 中開啟至少 t2.small 等級以上實體機器。

安裝 Java 套件。

1
2
3
$ sudo apt-add-repository ppa:webupd8team/java
$ sudo apt-get update
$ sudo apt-get install oracle-java7-installer

安裝 Git 套件。

1
$ sudo apt-get install git

Spark 安裝

下載 Spark 套件。

1
2
$ wget http://d3kbcqa49mib13.cloudfront.net/spark-1.2.0.tgz
$ tar xvf spark-1.2.0.tgz

安裝 Spark 套件。

1
2
$ cd spark-1.2.0/
$ sbt/sbt assembly

Python 操作

執行 pyspark ,透過 Python 語言以 Spark 進行資料基本操作。

1
2
$ cd spark-1.2.0/
$ ./bin/pyspark

載入文字檔轉換成彈性分散式資料集,簡稱資料集 (Resilient Distributed Datasets,RDD) ,再透過函式計算資料集的數量。

1
2
>>> textFile = sc.textFile("README.md")
>>> textFile.count()

透過函式計算資料集中包括 Spark 的數量。

1
2
>>> linesWithSpark = textFile.filter(lambda line: "Spark" in line)
>>> linesWithSpark.count()

透過匿名函式 (lambdas) 取得最多字元的行數。

1
2
>>> textFile = sc.textFile("README.md")
>>> textFile.map(lambda line: len(line.split())).reduce(lambda a, b: a if (a > b) else b)

相關資源

⬅️ Go back