GitHub 的基本设置

这个例子讨论了如何从 GitHub 仓库设置 CoreNLP。GitHub 代码具有比官方版本更新的功能,但可能不稳定。此示例将指导你下载,构建和运行 CoreNLP 的简单命令行调用。

先决条件:

  • Java 8 或更新版本。
  • Apache Ant
  • 混帐
  • 例如:Bash 或类似的 shell,以及 wget 或 curl

脚步:

  1. 克隆 CoreNLP Git 存储库:

    git clone git@github.com:stanfordnlp/CoreNLP.git
    
  2. 输入 CoreNLP 目录:

    cd CoreNLP
    
  3. 将项目构建为自包含的 jar 文件。最简单的方法是:

    ant jar
    
  4. 下载最新型号。

    wget http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
    

    或者使用 curl(macOS 上默认获得的):

    curl -O http://nlp.stanford.edu/software/stanford-corenlp-models-current.jar
    
  5. 设置类路径。如果你使用的是 IDE,则应在 IDE 中设置类路径。

    export CLASSPATH="$CLASSPATH:javanlp-core.jar:stanford-corenlp-models-current.jar";
    for file in `find lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; done
    

    如果你经常使用 CoreNLP,这是一个有用的行,你的~/.bashrc(或等效的)文件,用你解压缩 CoreNLP(3 个替换)的适当路径替换目录/path/to/corenlp/

    export CLASSPATH="$CLASSPATH:/path/to/corenlp/javanlp-core.jar:/path/to/corenlp/stanford-corenlp-models-current.jar";
    for file in `find /path/to/corenlp/lib -name "*.jar"`; do export CLASSPATH="$CLASSPATH:`realpath $file`"; don
    
  6. 试试看! 例如,以下内容将生成一个简单的文本文件进行注释,并在此文件上运行 CoreNLP。输出将作为 JSON 文件保存到 input.txt.out。请注意,CoreNLP 需要相当多的内存。在大多数情况下,你应该给它至少 2GB(-mx2g)。

    echo "the quick brown fox jumped over the lazy dog" > input.txt
    java -mx2g edu.stanford.nlp.pipeline.StanfordCoreNLP -outputFormat json -file input.txt