【问题标题】:How to get all words and their frequency from a webpage? [closed]如何从网页中获取所有单词及其频率? [关闭]
【发布时间】:2011-06-22 20:19:42
【问题描述】:

我必须从网页和链接的其他页面中获取所有单词及其频率。我必须为此使用任何网络爬虫吗?有什么简单的开源解决方案吗?

【问题讨论】:

  • 一个SEO Analyzer 可能对你有帮助。
  • 解析网页并从中收集单词的方法太多了,不能局限于一个答案。
  • 不值得这些反对票。这两个复合问题都很好回答。后者是主观的,但家长可以轻松挑选和推广最合适的答案。

标签: java php perl web-crawler


【解决方案1】:

开放式放大应该非常适合您。

http://www.openamplify.com/

【讨论】:

    【解决方案2】:

    httrack%I(创建可搜索索引)选项正是这样做的。

    documentation page 解释了一半,抱歉,没有可用的深层链接。跳转到句子片段

    仍在测试中,此选项要求引擎

    【讨论】:

      【解决方案3】:

      在 PHP 中,您可能会获取网页的内容(使用 file_get_content() 或 curl),然后是 strip_tags()str_word_count()

      【讨论】:

      • 好的,没关系,但是我怎样才能浏览网站的所有页面。我会使用正则表达式提取网页的 URL,然后用相同的过程获取它们吗?
      • 是的,您需要使用爬虫来拉取所有链接的网页
      猜你喜欢
      • 1970-01-01
      • 2020-01-16
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2021-01-27
      • 1970-01-01
      • 1970-01-01
      相关资源
      最近更新 更多