【发布时间】:2019-08-25 02:47:40
【问题描述】:
我正在寻找一个带注释的德语数据集,类似于著名的英语 IMDB 电影评论数据集 (here)。
背景是我想将德语文本分为多个类别(从正面情绪/负面/中性开始)。
我还没有找到经过情感分析预训练的德语词嵌入,也没有找到合适的数据集来训练我自己的词嵌入。
任何建议将不胜感激!
【问题讨论】:
我正在寻找一个带注释的德语数据集,类似于著名的英语 IMDB 电影评论数据集 (here)。
背景是我想将德语文本分为多个类别(从正面情绪/负面/中性开始)。
我还没有找到经过情感分析预训练的德语词嵌入,也没有找到合适的数据集来训练我自己的词嵌入。
任何建议将不胜感激!
【问题讨论】:
用于自然语言处理任务(例如情感分析)的数据集称为 语料库。
为什么它们很重要?
在选择语料库时要考虑什么?思考以下问题:
因此,与其只检查任何类似于 IMDB 的语料库,不如先检查您的语言中的问题上下文是否有带注释的语料库。有的话就好了否则,构建你自己的,获得一个比过于通用的语料库更好的最小功能语料库并不难——如果你决定遵循这条路,请查看开源注释工具 Doccano:https://github.com/chakki-works/doccano。
注意事项:情绪分析似乎适用于任何通用语料库,但请记住,每个上下文都有其特殊的行话,可以代表好或坏的事情。
【讨论】:
不完全是您要查找的内容,但在这里您可以找到用于文本分类的德语数据集: https://tblock.github.io/10kGNAD/
【讨论】: