【发布时间】:2011-10-03 23:19:08
【问题描述】:
我知道这是一个一般性的开放式问题。我基本上是在寻求帮助来决定前进的方向,也许是在寻求一些阅读材料。
我正在研究一种进行非结构化文本挖掘的算法,并尝试从该文本中提取特定的内容 - 乐队的名称(单曲艺术家、乐队等)。文本本身没有可预测的结构,但相对较小(1、2 行文本)。
一些例子可能是(不是真实事件):
Concert Green Day At Wembley Stadium
Extraordinary representation - Norah Jones in Poland - at the Polish Opera
现在,我正在考虑尝试一个分类器,但文本似乎很小,无法为其提供任何真正的训练信息。 可能还有其他几种文本挖掘技术、启发式或算法可以为此类问题产生良好的结果(或者可能没有算法可以)。
【问题讨论】:
-
你是对的,因为这个问题对于 SO 来说可能过于开放。我建议您搜索 SO 和整个网络,使用
Named entity recognition/extraction、NER等关键字,因为这将为您提供有关该领域的实践和挑战的更准确的想法。虽然不是重复的,但这个 SO 问题:stackoverflow.com/questions/1643616/… 可能是一个不错的起点。 -
让我直截了当地说:您是否有您正在寻找的乐队列表,或者您正在寻找一般的乐队名称?
标签: text nlp text-mining named-entity-recognition