Nutch 不抓取页面内容答案

【问题标题】：Nutch not crawling page contentNutch 不抓取页面内容
【发布时间】：2016-09-11 16:08:23
【问题描述】：

我遇到了一个问题，我无法从包含 php 表单内容的网站中抓取内容。我假设这是问题所在，因为所有其他页面都被抓取而没有问题。我正在使用 Nutch 1.11 和 Apache Solr 5.4.1 将抓取的文档编入索引。唯一获得索引的文本是来自菜单链接等的样板文本。整个文本正文永远不会被解析。
我目前仅使用默认配置尝试此操作，除了那些允许在 URL 中执行 php 查询的配置，因此除了所有默认设置之外，还接受诸如“？=”之类的字符。如果有人知道为什么会这样，我会非常感激，我似乎无法在网上的任何地方找到它作为一个问题。
下面是一个示例站点，我无法提取和解析正文文本。 https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21

我浏览了日志，它说它已经解析了 url。它设法提取菜单文本，但没有提取主要内容。正如我所说，域中的所有其他页面都可以毫无问题地提取。

【问题讨论】：

标签： php search solr nutch

【解决方案1】：

一般来说，默认情况下会忽略查询 url，这是因为它们会对爬取的网站造成很大的打击（因为查询 url 通常是从数据存储/数据库动态生成的），为了解决这个问题，请检查文件您将正则表达式放在白名单的位置，其中将有一条注释明确说明接受的 url 模式 - 这需要更改以允许查询 url（其中包含 ? 的 url）。

感兴趣的文件名为：REGEX-URLFILTER.TXT

并且将拥有：

# regex-urlfilter.txt +^http://www.example.com/browse -[?]

中的内容

关于此事的有趣博客：https://datafireball.com/2014/07/20/nutch-how-regex-urlfilter-txt-really-works/ - 我不隶属

【讨论】：