使用 NLTK 进行分块/文本解析答案

【问题标题】：chunking/text parsing using NLTK使用 NLTK 进行分块/文本解析
【发布时间】：2009-11-08 00:39:34
【问题描述】：

我正在尝试解析一些文本并将其绘制成图表，就像您处理一个句子一样。我是 NLTK 的新手，正在尝试在 NLTK 中找到可以帮助我完成此任务的东西。到目前为止，我见过nltk.ne_chunk 和nltk.pos_tag。我发现它们不是很有帮助，而且我找不到任何好的在线文档。

我也尝试过使用LancasterStemmer，但我不完全理解它的作用或它应该如何使用或它为什么存在。

有人可以帮我解决这个问题吗？没有任何指路明灯，我真的很茫然，很沮丧。

提前致谢

【问题讨论】：

您到底想完成什么？你真的需要语义解析，还是简单的词法分析？您要生成的二元图是什么？
最终，我希望能够创建一个代表文本中数据的“树”。完成此操作后，我可以对另一段文本（关于同一主题 - 比如说讲座）做同样的事情，并比较两者的相似/不同之处并合并差异。这最终可以产生一棵具有该讲座最准确表示的“树”

【解决方案1】：

您所描述的实际上是一项非常艰巨的任务，因为最后，您的程序是成功还是失败是完全主观的衡量标准。在这种情况下，通常意味着很难构建一个程序来解决问题。有些人在大学里为解决这些问题而获得报酬。

如果您想尝试一下，我建议您尝试在自动词法分析工具上使用某种工具，而不是尝试手动解析和注释，然后利用您的解析树。通常分析树代表句法分析，即句子的结构。另一方面，您更关心语义分析，即它的含义 - 或者至少两个句子是否相似或不同（这实际上比某事的含义要容易一些）。

您可以研究一些现成的自动摘要工具。这些尝试根据句子对一段文本的重要性来对句子进行评分，并过滤掉比指定阈值不重要的句子。并不是说这真的对你有多大帮助，因为你仍然有需要合并摘要的问题。

【讨论】：

谢谢。现在，我正在尝试获取句子的句法结构，以便稍后进行语义解析。如果我走错了方向，请告诉我，因为我仍然是一名学生，不是专家，并且希望得到这样的反馈。无论哪种情况，你会推荐任何特定的 nltk 工具/模块来帮助解决这个问题吗？
如果我要尝试这个任务，我不确定我是否会为解析而烦恼。我认为您最好使用通常使用词袋方法（或类似方法）的统计方法。听起来就是这样，只是把每个句子当成一堆单词，而不用担心单词的位置。一些可能对您有所帮助的技术是基于集群的方法，可能还有 TF-IDF。也许阅读这些内容，看看您是否认为它们可能对您有所帮助。 NLTK 有这两个模块。
谢谢谦虚的咖啡。不过，您是否有可能将我指向任何特定的 nltk 模块？也许您已经使用并认为可能适合我的问题的东西？