用于训练文本分类器的德语数据集答案

【问题标题】：German dataset for training text classifier用于训练文本分类器的德语数据集
【发布时间】：2019-08-25 02:47:40
【问题描述】：

我正在寻找一个带注释的德语数据集，类似于著名的英语 IMDB 电影评论数据集 (here)。
背景是我想将德语文本分为多个类别（从正面情绪/负面/中性开始）。
我还没有找到经过情感分析预训练的德语词嵌入，也没有找到合适的数据集来训练我自己的词嵌入。
任何建议将不胜感激！

【问题讨论】：

标签： sentiment-analysis

【解决方案1】：

用于自然语言处理任务（例如情感分析）的数据集称为 语料库。

为什么它们很重要？

它们为模型提供上下文 特征（用于分类的词）。
- 如果您正在使用某些嵌入，则语料库提供了获取用于确定模型的向量的方法。

在选择语料库时要考虑什么？思考以下问题：

我选择的语料库是否为我的模型提供了重要特征？
语料库是否很好地代表了我的上下文？是关于同一件事还是过于笼统？

因此，与其只检查任何类似于 IMDB 的语料库，不如先检查您的语言中的问题上下文是否有带注释的语料库。有的话就好了否则，构建你自己的，获得一个比过于通用的语料库更好的最小功能语料库并不难——如果你决定遵循这条路，请查看开源注释工具 Doccano：https://github.com/chakki-works/doccano。

注意事项：情绪分析似乎适用于任何通用语料库，但请记住，每个上下文都有其特殊的行话，可以代表好或坏的事情。

【讨论】：

【解决方案2】：

不完全是您要查找的内容，但在这里您可以找到用于文本分类的德语数据集： https://tblock.github.io/10kGNAD/

https://ofai.github.io/million-post-corpus/

【讨论】：