【发布时间】:2016-09-11 16:08:23
【问题描述】:
我遇到了一个问题,我无法从包含 php 表单内容的网站中抓取内容。我假设这是问题所在,因为所有其他页面都被抓取而没有问题。我正在使用 Nutch 1.11 和 Apache Solr 5.4.1 将抓取的文档编入索引。唯一获得索引的文本是来自菜单链接等的样板文本。整个文本正文永远不会被解析。
我目前仅使用默认配置尝试此操作,除了那些允许在 URL 中执行 php 查询的配置,因此除了所有默认设置之外,还接受诸如“?=”之类的字符。
如果有人知道为什么会这样,我会非常感激,我似乎无法在网上的任何地方找到它作为一个问题。
下面是一个示例站点,我无法提取和解析正文文本。
https://www101.dcu.ie/prospective/deginfo.php?classname=BMED&originating_school=21
我浏览了日志,它说它已经解析了 url。它设法提取菜单文本,但没有提取主要内容。正如我所说,域中的所有其他页面都可以毫无问题地提取。
【问题讨论】: