【问题标题】:chunking/text parsing using NLTK使用 NLTK 进行分块/文本解析
【发布时间】:2009-11-08 00:39:34
【问题描述】:

我正在尝试解析一些文本并将其绘制成图表,就像您处理一个句子一样。我是 NLTK 的新手,正在尝试在 NLTK 中找到可以帮助我完成此任务的东西。到目前为止,我见过nltk.ne_chunknltk.pos_tag。我发现它们不是很有帮助,而且我找不到任何好的在线文档。

我也尝试过使用LancasterStemmer,但我不完全理解它的作用或它应该如何使用或它为什么存在。

有人可以帮我解决这个问题吗?没有任何指路明灯,我真的很茫然,很沮丧。

提前致谢

【问题讨论】:

  • 您到底想完成什么?你真的需要语义解析,还是简单的词法分析?您要生成的二元图是什么?
  • 最终,我希望能够创建一个代表文本中数据的“树”。完成此操作后,我可以对另一段文本(关于同一主题 - 比如说讲座)做同样的事情,并比较两者的相似/不同之处并合并差异。这最终可以产生一棵具有该讲座最准确表示的“树”

标签: nlp text-parsing nltk


【解决方案1】:

您所描述的实际上是一项非常艰巨的任务,因为最后,您的程序是成功还是失败是完全主观的衡量标准。在这种情况下,通常意味着很难构建一个程序来解决问题。有些人在大学里为解决这些问题而获得报酬。

如果您想尝试一下,我建议您尝试在自动词法分析工具上使用某种工具,而不是尝试手动解析和注释,然后利用您的解析树。通常分析树代表句法分析,即句子的结构。另一方面,您更关心语义分析,即它的含义 - 或者至少两个句子是否相似或不同(这实际上比某事的含义要容易一些)。

您可以研究一些现成的自动摘要工具。这些尝试根据句子对一段文本的重要性来对句子进行评分,并过滤掉比指定阈值不重要的句子。并不是说这真的对你有多大帮助,因为你仍然有需要合并摘要的问题。

【讨论】:

  • 谢谢。现在,我正在尝试获取句子的句法结构,以便稍后进行语义解析。如果我走错了方向,请告诉我,因为我仍然是一名学生,不是专家,并且希望得到这样的反馈。无论哪种情况,你会推荐任何特定的 nltk 工具/模块来帮助解决这个问题吗?
  • 如果我要尝试这个任务,我不确定我是否会为解析而烦恼。我认为您最好使用通常使用词袋方法(或类似方法)的统计方法。听起来就是这样,只是把每个句子当成一堆单词,而不用担心单词的位置。一些可能对您有所帮助的技术是基于集群的方法,可能还有 TF-IDF。也许阅读这些内容,看看您是否认为它们可能对您有所帮助。 NLTK 有这两个模块。
  • 谢谢谦虚的咖啡。不过,您是否有可能将我指向任何特定的 nltk 模块?也许您已经使用并认为可能适合我的问题的东西?
猜你喜欢
  • 1970-01-01
  • 1970-01-01
  • 2017-04-11
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 1970-01-01
  • 2018-05-13
  • 2013-03-03
相关资源
最近更新 更多