【问题标题】:Clear approach for assigning semantic tags to each sentence (or short documents) in python在python中为每个句子(或短文档)分配语义标签的清晰方法
【发布时间】:2023-10-22 20:38:01
【问题描述】:

我正在寻找一种使用 python 库解决以下问题的好方法:

我有一个数据集,其中有一列包含产品描述。此列中的值可能非常混乱,并且会有很多与产品无关的其他词。我想知道哪些行是关于同一产品的,所以我需要用它的主要主题标记每个描述句子。例如,如果我有以下内容: “500 件鞋绿色运动网球进口海外塑料”,我希望标签类似于:“鞋”、“运动”。所以我正在寻找一种方法来对句子进行语义标记,而不是词性标记。假设我没有标记(标记)数据进行训练。

任何帮助将不胜感激。

【问题讨论】:

    标签: python-2.7 nlp nltk gensim semantic-analysis


    【解决方案1】:

    缺乏标记数据意味着您无法应用任何使用词向量的语义分类方法,这将是您问题的最佳解决方案。然而,另一种选择可能是构建令牌 n-gram 的文档频率,并根据 idf 的一些平滑变体假设重要性(即,往往在描述中经常出现的单词可能带有一些语义权重)。然后,您可以检查您认为重要(/不重要)的单词和精选(/擦除)单词的按 idf 排序列表。结果并不完美,但鉴于您缺乏训练数据,这是一个干净简单的解决方案。

    【讨论】:

    • 感谢您提供的信息!我也在探索 Doc2Vec 的用处。
    最近更新 更多