【问题标题】:German dataset for training text classifier用于训练文本分类器的德语数据集
【发布时间】:2019-08-25 02:47:40
【问题描述】:

我正在寻找一个带注释的德语数据集,类似于著名的英语 IMDB 电影评论数据集 (here)。
背景是我想将德语文本分为多个类别(从正面情绪/负面/中性开始)。
我还没有找到经过情感分析预训练的德语词嵌入,也没有找到合适的数据集来训练我自己的词嵌入。
任何建议将不胜感激!

【问题讨论】:

    标签: sentiment-analysis


    【解决方案1】:

    用于自然语言处理任务(例如情感分析)的数据集称为 语料库

    为什么它们很重要?

    • 它们为模型提供上下文 特征(用于分类的词)。
      • 如果您正在使用某些嵌入,则语料库提供了获取用于确定模型的向量的方法。

    在选择语料库时要考虑什么?思考以下问题:

    • 我选择的语料库是否为我的模型提供了重要特征?
    • 语料库是否很好地代表了我的上下文?是关于同一件事还是过于笼统?

    因此,与其只检查任何类似于 IMDB 的语料库,不如先检查您的语言中的问题上下文是否有带注释的语料库。有的话就好了否则,构建你自己的,获得一个比过于通用的语料库更好的最小功能语料库并不难——如果你决定遵循这条路,请查看开源注释工具 Doccano:https://github.com/chakki-works/doccano

    注意事项:情绪分析似乎适用于任何通用语料库,但请记住,每个上下文都有其特殊的行话,可以代表好或坏的事情。

    【讨论】:

      【解决方案2】:

      不完全是您要查找的内容,但在这里您可以找到用于文本分类的德语数据集: https://tblock.github.io/10kGNAD/

      https://ofai.github.io/million-post-corpus/

      【讨论】:

        猜你喜欢
        • 2015-06-17
        • 2016-01-25
        • 1970-01-01
        • 2015-07-02
        • 2021-03-23
        • 2016-07-03
        • 1970-01-01
        • 2012-08-14
        • 2020-08-15
        相关资源
        最近更新 更多