如何从网页中获取所有单词及其频率？ [关闭]答案

【问题标题】：How to get all words and their frequency from a webpage? [closed]如何从网页中获取所有单词及其频率？ [关闭]
【发布时间】：2011-06-22 20:19:42
【问题描述】：

我必须从网页和链接的其他页面中获取所有单词及其频率。我必须为此使用任何网络爬虫吗？有什么简单的开源解决方案吗？

【问题讨论】：

【解决方案1】：

开放式放大应该非常适合您。

【讨论】：

【解决方案2】：

httrack 的%I（创建可搜索索引）选项正是这样做的。

documentation page 解释了一半，抱歉，没有可用的深层链接。跳转到句子片段

仍在测试中，此选项要求引擎

【讨论】：

【解决方案3】：

在 PHP 中，您可能会获取网页的内容（使用 file_get_content() 或 curl），然后是 strip_tags() 和 str_word_count()

【讨论】：