NLP：如何使用 Gensim 获取文本摘要的准确句子数量答案

【问题标题】：NLP: How to get an exact number of sentences for a text summary using GensimNLP：如何使用 Gensim 获取文本摘要的准确句子数量
【发布时间】：2017-10-24 16:27:57
【问题描述】：

我正在尝试在 python 中使用 Gensim 总结一些文本，并且我的摘要中只需要 3 个句子。似乎没有这样做的选项，所以我做了以下解决方法：

with open ('speeches//'+speech, "r") as myfile:
    speech=myfile.read()
    sentences = speech.count('.')
    x = gensim.summarization.summarize(speech, ratio=3.0/sentences)

但是，这段代码只给了我两句话。此外，当我逐渐将 3 增加到 5 时，仍然没有任何反应。

任何帮助将不胜感激。

【问题讨论】：

标签： nlp text-processing gensim

【解决方案1】：

您可能无法为此使用“比率”。如果你给 ratio=0.3，并且你有 10 个句子（假设每个句子中的单词数相同），你的输出将有 3 个句子，6 个句子代表 20，依此类推。

根据gensim doc ratio (float, optional) – 0 到 1 之间的数字，用于确定要为摘要选择的原始文本的句子数量的比例。

相反，您可能想尝试使用 word_count、summarize(speech, word_count=60)

这个问题有点老了，如果你找到更好的解决方案，请分享。

【讨论】：