【发布时间】:2012-01-31 06:27:27
【问题描述】:
我发现自己必须一直学习新事物。我一直在想办法加快学习新学科的过程。我认为如果我可以编写一个程序来解析维基百科文章并删除除了最有价值的信息之外的所有内容。
我首先从PDFs 上的维基百科文章中提取前 100 个句子。我根据我认为它的价值给每个句子打分。我最终创建了一个以下格式的文件:
<sentence>
<value>
<sentence>
<value>
etc.
然后我解析了这个文件并试图找到各种函数,这些函数将每个句子与我给它的值相关联。我刚刚开始学习机器学习和统计等等,所以我在这里做了很多摸索。这是我的最新尝试:https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py。
我尝试了一堆似乎根本没有产生任何相关性的东西——平均字长、文章中的位置等。几乎唯一能产生任何有用关系的东西就是长度的字符串(更具体地说,计算小写字母 'e' 的数量似乎效果最好)。但这似乎有点蹩脚,因为很明显更长的句子更有可能包含有用的信息。
在某一时刻,我以为我找到了一些有趣的函数,但是当我尝试删除异常值(仅计算内部四分位数)时,结果发现它们产生的结果更差,然后只是为每个句子返回 0。这让我想知道我可能做错了多少其他事情......我也想知道这是否是解决这个问题的好方法。
你认为我在正确的轨道上吗?或者这只是一个傻瓜的差事?链接代码中是否存在明显的缺陷?有谁知道解决总结维基百科文章问题的更好方法?我宁愿有一个快速而肮脏的解决方案,而不是需要很长时间才能完成的完美解决方案。也欢迎任何一般性建议。
【问题讨论】:
-
接下来,您会希望我们使用新话来使扫描的文章更短;)
-
你显然太老了。把这种事情留给 16 岁的孩子wired.com/gadgetlab/2011/12/summly-app-summarization
-
:) Summly 看起来很酷。我无法在我的 ipod 上运行它,但我可以阅读评论。他们非常混杂。我觉得它不太好用。
-
我错了,但在我看来,16 岁以上的人正在使用混合了遗传算法的神经网络?简单有效。
标签: python statistics machine-learning wikipedia summarization