安裝或設定

Linux

要求(r0.16.0)

強制性

根據目前的 Apache-Pig 文件,它僅支援 UnixWindows 作業系統。

  • Hadoop 0.23.X,1.X 或 2.X
  • 安裝 Java 1.6 或更高版本並將 JAVA_HOME 環境變數設定為 Java 安裝目錄

可選的

  • Python 2.7 或更高版本(Python UDF)
  • Ant 1.8(用於構建)

下載最新的 Pig 版本

http://pig.apache.org/releases.html#Download 下載最新版本的 pig

安裝

mkdir Pig
cd Downloads/ 
tar zxvf pig-(latest-version).tar.gz 
tar zxvf pig-(latest-version).tar.gz 
mv pig-(latest-version).tar.gz/* /home/Pig/

組態

安裝 Apache Pig 後,我們必須對其進行配置。

開啟 .bashrc 檔案

vim ~/.bashrc

在 .bashrc 檔案中,設定以下變數 -

export PIG_HOME = /home/Pig
export PATH  = PATH:/home/Pig/bin

儲存檔案並使用在環境中重新載入 bashrc

. ~/.bashrc

驗證豬版

pig –version 

如果安裝成功,則上面的命令顯示已安裝的 Pig 版本號。

測試豬安裝

pig -h

這應顯示與 pig 相關的所有可能命令

你的豬現在已在本地安裝,你可以使用本地引數來執行它

pig -x local

連線到 Hadoop

如果在群集上安裝了 Hadoop1.x 或 2.x,則會設定 HADOOP_HOME 環境變數。

你可以像以前一樣在 .bashrc 中新增一行,將 pig 連線到 Hadoop

export PIG_CLASSPATH = $HADOOP_HOME/conf

跑豬

執行模式

你可以使用 pig (bin / pig) 命令或執行 jar 檔案 (java -cp pig.jar) 來執行 Pig **

PIG 指令碼可以在 3 種不同的模式下執行:

  • 本地模式

     pig -x local ...
    
  • Mapreduce 模式 (預設模式)

     pig -x mapreduce ...
          (or)
     pig ...
    
  • Tez 本地模式

     pig -x tez ...
    

互動模式

Pig 可以使用 Grunt shell 以互動模式執行。可以在此 shell 中以互動方式輸入 Pig Latin 語句和命令。

$ pig -x <mode> <enter>
grunt>

Mode 可以是執行模式之一,如上一節中所述。

批處理模式

Pig 也可以批處理模式執行。這裡提供了包含 pig 語句和命令列表的 .pig 檔案。

$ pig -x <mode> <script.pig>
grunt>

類似地,Mode 可以是執行模式之一,如上一節中所述。