【问题标题】:Nutch not crawling page contentNutch 不抓取页面内容
【发布时间】:2016-09-11 16:08:23
【问题描述】:

我遇到了一个问题,我无法从包含 php 表单内容的网站中抓取内容。我假设这是问题所在,因为所有其他页面都被抓取而没有问题。我正在使用 Nutch 1.11 和 Apache Solr 5.4.1 将抓取的文档编入索引。唯一获得索引的文本是来自菜单链接等的样板文本。整个文本正文永远不会被解析。
我目前仅使用默认配置尝试此操作,除了那些允许在 URL 中执行 php 查询的配置,因此除了所有默认设置之外,还接受诸如“?=”之类的字符。 如果有人知道为什么会这样,我会非常感激,我似乎无法在网上的任何地方找到它作为一个问题。
下面是一个示例站点,我无法提取和解析正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我浏览了日志,它说它已经解析了 url。它设法提取菜单文本,但没有提取主要内容。正如我所说,域中的所有其他页面都可以毫无问题地提取。

【问题讨论】:

    标签: php search solr nutch


    【解决方案1】:

    一般来说,默认情况下会忽略查询 url,这是因为它们会对爬取的网站造成很大的打击(因为查询 url 通常是从数据存储/数据库动态生成的),为了解决这个问题,请检查文件您将正则表达式放在白名单的位置,其中将有一条注释明确说明接受的 url 模式 - 这需要更改以允许查询 url(其中包含 ? 的 url)。

    感兴趣的文件名为:REGEX-URLFILTER.TXT

    并且将拥有:

    # regex-urlfilter.txt +^http://www.example.com/browse -[?]

    中的内容

    关于此事的有趣博客:https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属

    【讨论】:

      猜你喜欢
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 1970-01-01
      • 2019-04-02
      相关资源
      最近更新 更多