【问题标题】:How to use TreeTagger in Google Colab?如何在 Google Colab 中使用 TreeTagger?
【发布时间】:2021-05-03 10:06:42
【问题描述】:
我想使用 TreeTagger 模块在原始语料库上标记 POS 信息。
由于通过 Google Colab 使用 GPU 似乎更快,我安装了 TreeTagger 模块,但 Colab 代码找不到 TreeTagger 目录。
错误类型是这样的:
TreeTaggerError: 找不到 TreeTagger 目录(并且没有指定 TAGDIR)
请告诉我应该在哪里上传 treetagger 文件夹。
【问题讨论】:
标签:
google-colaboratory
treetagger
【解决方案1】:
你必须指定目录:
treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/') # treetagger is the installation dir
在 Colab 中安装。
按照website 上的说明进行操作。
在 Colab 的一个单元格中,您必须输入以下内容(对于其他(非英语)语言,请为参数文件添加其他链接):
%%bash
mkdir treetagger
cd treetagger
# Download the tagger package for your system (PC-Linux, Mac OS-X, ARM64, ARMHF, ARM-Android, PPC64le-Linux).
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tree-tagger-linux-3.2.4.tar.gz
tar -xzvf tree-tagger-linux-3.2.4.tar.gz
# Download the tagging scripts into the same directory.
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/tagger-scripts.tar.gz
gunzip tagger-scripts.tar.gz
# Download the installation script install-tagger.sh.
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/install-tagger.sh
# Download the parameter files for the languages you want to process.
# list of all files (parameter files) https://cis.lmu.de/~schmid/tools/TreeTagger/#parfiles
wget https://cis.lmu.de/~schmid/tools/TreeTagger/data/english.par.gz
sh install-tagger.sh
cd ..
sudo pip install treetaggerwrapper
您可以在以下其他单元格中检查安装:
>>> import pprint # For proper print of sequences.
>>> import treetaggerwrapper
>>> #1) build a TreeTagger wrapper:
>>> tagger = treetaggerwrapper.TreeTagger(TAGLANG='en', TAGDIR='treetagger/')
>>> #2) tag your text.
>>> tags = tagger.tag_text("This is a very short text to tag.")
>>> #3) use the tags list... (list of string output from TreeTagger).
>>> pprint.pprint(tags)