PySpark MacOS Installation: Step-by-Step Guide 🐍
分為兩部分介紹如何安裝 pyspark,
- 安裝:介紹使用 pyspark 前所需安裝的所有工具與軟體。
- 檢查:安裝完畢後,測試是否能順利開啟 spark 與 pyspark。
話不多說,開始來安裝吧~
安裝
在安裝階段,我們需要安裝 Java、Scala 與 Apache Spark,並且安裝 pyspark 套件。
而在安裝這些軟體前,我們需要 Xcode 與 Homebrew 這兩項工具。
Xcode: Apple’s Command Line Tools
在終端機輸入1
xcode-select --install
接者在彈跳視窗點按 install 即可。
安裝 Homebrew
Homebrew 是一個開源的套件管理器,其使用非常簡單所以可以節省很多的精力。
我們後續也會使用 homebrew 安裝 Java、Scala 與 spark。
到 homebrew 的頁面造著指示安裝即可。
官網連結:
Homebrew Downloads|Homebrew
如果不確定自己是否有安裝 homebrew 或是安裝完成想檢查是否成功的話,可以輸入brew
或是which brew
,如果有成功出現 Example usage 或是 brew 的路徑代表成功~安裝 java
可以先下java -version
檢查電腦是否有 java 了
如果沒有的,直接至 oracle 官網下載 JDK 安裝包。
官網連結:
Java Downloads | Oracle
選取 macOS 後,依照電腦芯片安裝對應的 DMG Installer,intel 為 x64,apple silicon 為 ARM64。安裝完成後,打開終端機,一樣輸入:
1
java -version
顯示以下訊息代表正確安裝~
1
2
3java version "22" 2024-03-19
Java(TM) SE Runtime Environment (build 22+36-2370)
Java HotSpot(TM) 64-Bit Server VM (build 22+36-2370, mixed mode, sharing)安裝 scala
一樣可以先利用scala -version
檢查是否有 scala,
如果沒有:1
brew install scala
安裝 spark
直接輸入:1
brew install apache-spark
安裝 pyspark
pyspark 是一個作為 python 與 spark 接口的套件,也就是直接利用pip
即可,其中記得切換到你正在使用的虛擬環境。
1 | conda create --name your_venv_name python=3.8 |
1 | conda activate your_venv_name |
檢查
做完上述步驟,即完成 pyspark 的安裝,我們可以來檢查一下是否安裝成功。
spark
在終端機輸入:1
spark-shell
成功的話會如下圖所示,並進入 scala 環境,接著輸入
:q
退出環境。pyspark
接著測試我們真正使用的 pyspark,開啟 jupyter notebook,輸入以下的程式。1
2
3
4from pyspark import SparkContext
sc = SparkContext()
from pyspark.sql import SparkSession
spark = SparkSession.builder.getOrCreate()
如此以來,就完成 pyspark 的安裝拉(撒花 🎉
此文章同步於 Medium。
也歡迎大家傳送 Linkedin 連結邀請給我。Linkedin Profile