分為兩部分介紹如何安裝 pyspark,

  1. 安裝:介紹使用 pyspark 前所需安裝的所有工具與軟體。
  2. 檢查:安裝完畢後,測試是否能順利開啟 spark 與 pyspark。
    話不多說,開始來安裝吧~

安裝

在安裝階段,我們需要安裝 Java、Scala 與 Apache Spark,並且安裝 pyspark 套件。
而在安裝這些軟體前,我們需要 Xcode 與 Homebrew 這兩項工具。

  1. Xcode: Apple’s Command Line Tools
    在終端機輸入

    1
    xcode-select --install

    接者在彈跳視窗點按 install 即可。

  2. 安裝 Homebrew
    Homebrew 是一個開源的套件管理器,其使用非常簡單所以可以節省很多的精力。
    我們後續也會使用 homebrew 安裝 Java、Scala 與 spark。
    到 homebrew 的頁面造著指示安裝即可。
    官網連結:
    Homebrew Downloads|Homebrew
    如果不確定自己是否有安裝 homebrew 或是安裝完成想檢查是否成功的話,可以輸入 brew 或是 which brew,如果有成功出現 Example usage 或是 brew 的路徑代表成功~

  3. 安裝 java
    可以先下 java -version 檢查電腦是否有 java 了
    如果沒有的,直接至 oracle 官網下載 JDK 安裝包。
    官網連結:
    Java Downloads | Oracle
    選取 macOS 後,依照電腦芯片安裝對應的 DMG Installer,intel 為 x64,apple silicon 為 ARM64。

    安裝完成後,打開終端機,一樣輸入:

    1
    java -version

    顯示以下訊息代表正確安裝~

    1
    2
    3
    java version "22" 2024-03-19
    Java(TM) SE Runtime Environment (build 22+36-2370)
    Java HotSpot(TM) 64-Bit Server VM (build 22+36-2370, mixed mode, sharing)
  4. 安裝 scala
    一樣可以先利用 scala -version 檢查是否有 scala,
    如果沒有:

    1
    brew install scala
  5. 安裝 spark
    直接輸入:

    1
    brew install apache-spark
  6. 安裝 pyspark
    pyspark 是一個作為 python 與 spark 接口的套件,也就是直接利用 pip 即可,其中記得切換到你正在使用的虛擬環境。

1
conda create --name your_venv_name python=3.8
1
2
conda activate your_venv_name
pip install pyspark

檢查

做完上述步驟,即完成 pyspark 的安裝,我們可以來檢查一下是否安裝成功。

  1. spark
    在終端機輸入:

    1
    spark-shell

    成功的話會如下圖所示,並進入 scala 環境,接著輸入 :q 退出環境。

  2. pyspark
    接著測試我們真正使用的 pyspark,開啟 jupyter notebook,輸入以下的程式。

    1
    2
    3
    4
    from pyspark import SparkContext
    sc = SparkContext()
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.getOrCreate()

如此以來,就完成 pyspark 的安裝拉(撒花 🎉

此文章同步於 Medium
也歡迎大家傳送 Linkedin 連結邀請給我。Linkedin Profile