【问题标题】:How to use TreeTagger in Google Colab?如何在 Google Colab 中使用 TreeTagger?
【发布时间】:2021-05-03 10:06:42
【问题描述】:

我想使用 TreeTagger 模块在原始语料库上标记 POS 信息。

由于通过 Google Colab 使用 GPU 似乎更快,我安装了 TreeTagger 模块,但 Colab 代码找不到 TreeTagger 目录。

错误类型是这样的: TreeTaggerError: 找不到 TreeTagger 目录(并且没有指定 TAGDIR)

请告诉我应该在哪里上传 treetagger 文件夹。

【问题讨论】:

    标签: google-colaboratory treetagger


    【解决方案1】:

    你必须指定目录:

    treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/') # treetagger is the installation dir
    

    在 Colab 中安装。
    按照website 上的说明进行操作。
    在 Colab 的一个单元格中,您必须输入以下内容(对于其他(非英语)语言,请为参数文件添加其他链接):

    %%bash
    mkdir treetagger
    cd treetagger
    # Download the tagger package for your system (PC-Linux, Mac OS-X, ARM64, ARMHF, ARM-Android, PPC64le-Linux).
    wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tree-tagger-linux-3.2.4.tar.gz
    tar -xzvf tree-tagger-linux-3.2.4.tar.gz
    # Download the tagging scripts into the same directory.
    wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tagger-scripts.tar.gz
    gunzip tagger-scripts.tar.gz
    # Download the installation script install-tagger.sh.
    wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/install-tagger.sh
    # Download the parameter files for the languages you want to process.
    # list of all files (parameter files) https://cis.lmu.de/~schmid/tools/TreeTagger/#parfiles
    wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/english.par.gz
    sh install-tagger.sh
    cd ..
    sudo pip install treetaggerwrapper
    

    您可以在以下其他单元格中检查安装:

    >>> import pprint   # For proper print of sequences.
    >>> import treetaggerwrapper
    >>> #1) build a TreeTagger wrapper:
    >>> tagger = treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/')
    >>> #2) tag your text.
    >>> tags = tagger.tag_text("This is a very short text to tag.")
    >>> #3) use the tags list... (list of string output from TreeTagger).
    >>> pprint.pprint(tags)
    

    【讨论】:

      猜你喜欢
      • 2021-12-15
      • 1970-01-01
      • 2023-01-27
      • 2020-08-27
      • 1970-01-01
      • 2021-02-16
      • 2020-11-29
      • 2021-02-17
      • 1970-01-01
      相关资源
      最近更新 更多