【问题标题】:Text mining - extract name of band from unstructured text [closed]文本挖掘 - 从非结构化文本中提取波段名称 [关闭]
【发布时间】:2011-10-03 23:19:08
【问题描述】:

我知道这是一个一般性的开放式问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。

我正在研究一种进行非结构化文本挖掘的算法,并尝试从该文本中提取特定的内容 - 乐队的名称(单曲艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。

一些例子可能是(不是真实事件):

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。 可能还有其他几种文本挖掘技术、启发式或算法可以为此类问题产生良好的结果(或者可能没有算法可以)。

【问题讨论】:

  • 你是对的,因为这个问题对于 SO 来说可能过于开放。我建议您搜索 SO 和整个网络,使用 Named entity recognition/extractionNER 等关键字,因为这将为您提供有关该领域的实践和挑战的更准确的想法。虽然不是重复的,但这个 SO 问题:stackoverflow.com/questions/1643616/… 可能是一个不错的起点。
  • 让我直截了当地说:您是否有您正在寻找的乐队列表,或者您正在寻找一般的乐队名称?

标签: text nlp text-mining named-entity-recognition


【解决方案1】:

由于您的数据结构,预训练模型可能表现不佳。此外,一般的组织位置类别可能对您没有用处。

我不认为文本本身太小,大多数 NER 系统一次只处理一个句子。所以为你自己的训练集提供一个NER-library可能会很好用,比如http://nlp.stanford.edu/ner/index.shtml

如果您不想创建训练集,则需要一本包含所有乐队/艺术家的字典。那你显然找不到不知名的乐队/艺人。

【讨论】:

  • 我没试过,但我怀疑 NER 标注器可能会因为大写字母的数量而在 Concert Green Day At Wembley Stadium 这样的句子上遇到麻烦。但如果他们这样做了,那么他们的输出可以被提供给分类器(或从维基百科中提取的简单波段列表)。
  • 是的,我想他们也会。但如果他们接受过具有类似大写字母的自定义数据集的训练,则不会。
【解决方案2】:

有一个简单的 NER 算法可以稍微简化任务: 取可能是(或不是)命名实体的词,并在 Google 或 Yahoo(通过 API)中搜索它们两次:作为单独的词和作为确切的短语(即带引号)。将结果数相除。有一个阈值 (

【讨论】:

    猜你喜欢
    • 1970-01-01
    • 1970-01-01
    • 2018-09-21
    • 2013-04-29
    • 1970-01-01
    • 2011-01-19
    • 2011-02-16
    • 2017-03-20
    • 1970-01-01
    相关资源
    最近更新 更多