文本挖掘 - 从非结构化文本中提取波段名称 [关闭]答案

【问题标题】：Text mining - extract name of band from unstructured text [closed]文本挖掘 - 从非结构化文本中提取波段名称 [关闭]
【发布时间】：2011-10-03 23:19:08
【问题描述】：

我知道这是一个一般性的开放式问题。我基本上是在寻求帮助来决定前进的方向，也许是在寻求一些阅读材料。

我正在研究一种进行非结构化文本挖掘的算法，并尝试从该文本中提取特定的内容 - 乐队的名称（单曲艺术家、乐队等）。文本本身没有可预测的结构，但相对较小（1、2 行文本）。

一些例子可能是（不是真实事件）：

Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera

现在，我正在考虑尝试一个分类器，但文本似乎很小，无法为其提供任何真正的训练信息。可能还有其他几种文本挖掘技术、启发式或算法可以为此类问题产生良好的结果（或者可能没有算法可以）。

【问题讨论】：

你是对的，因为这个问题对于 SO 来说可能过于开放。我建议您搜索 SO 和整个网络，使用 Named entity recognition/extraction、NER 等关键字，因为这将为您提供有关该领域的实践和挑战的更准确的想法。虽然不是重复的，但这个 SO 问题：stackoverflow.com/questions/1643616/… 可能是一个不错的起点。
让我直截了当地说：您是否有您正在寻找的乐队列表，或者您正在寻找一般的乐队名称？

【解决方案1】：

由于您的数据结构，预训练模型可能表现不佳。此外，一般的组织、位置和人类别可能对您没有用处。

我不认为文本本身太小，大多数 NER 系统一次只处理一个句子。所以为你自己的训练集提供一个NER-library可能会很好用，比如http://nlp.stanford.edu/ner/index.shtml

如果您不想创建训练集，则需要一本包含所有乐队/艺术家的字典。那你显然找不到不知名的乐队/艺人。

【讨论】：

我没试过，但我怀疑 NER 标注器可能会因为大写字母的数量而在 Concert Green Day At Wembley Stadium 这样的句子上遇到麻烦。但如果他们这样做了，那么他们的输出可以被提供给分类器（或从维基百科中提取的简单波段列表）。
是的，我想他们也会。但如果他们接受过具有类似大写字母的自定义数据集的训练，则不会。

【解决方案2】：

有一个简单的 NER 算法可以稍微简化任务：取可能是（或不是）命名实体的词，并在 Google 或 Yahoo（通过 API）中搜索它们两次：作为单独的词和作为确切的短语（即带引号）。将结果数相除。有一个阈值 (

【讨论】：