GitHub 的基本設定

這個例子討論瞭如何從 GitHub 倉庫設定 CoreNLP。GitHub 程式碼具有比官方版本更新的功能,但可能不穩定。此示例將指導你下載,構建和執行 CoreNLP 的簡單命令列呼叫。

先決條件:

  • Java 8 或更新版本。
  • Apache Ant
  • 混帳
  • 例如:Bash 或類似的 shell,以及 wget 或 curl

腳步:

  1. 克隆 CoreNLP Git 儲存庫:

    git clone git@github.com:stanfordnlp/CoreNLP.git
    
  2. 輸入 CoreNLP 目錄:

    cd CoreNLP
    
  3. 將專案構建為自包含的 jar 檔案。最簡單的方法是:

    ant jar
    
  4. 下載最新型號。

    wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
    

    或者使用 curl(macOS 上預設獲得的):

    curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
    
  5. 設定類路徑。如果你使用的是 IDE,則應在 IDE 中設定類路徑。

    export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
    for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
    

    如果你經常使用 CoreNLP,這是一個有用的行,你的~/.bashrc(或等效的)檔案,用你解壓縮 CoreNLP(3 個替換)的適當路徑替換目錄/path/to/corenlp/

    export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
    for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
    
  6. 試試看! 例如,以下內容將生成一個簡單的文字檔案進行註釋,並在此檔案上執行 CoreNLP。輸出將作為 JSON 檔案儲存到 input.txt.out。請注意,CoreNLP 需要相當多的記憶體。在大多數情況下,你應該給它至少 2GB(-mx2g)。

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt