未获取 nutch 网址答案

【问题标题】：nutch urls not fetched未获取 nutch 网址
【发布时间】：2019-04-21 16:41:22
【问题描述】：

尝试从该域的本地网站抓取一些网址：

https://foo.foofoo.com

但是，我无法为下面这些特定的内容制作它。因为 nutch 会跳过它们，即使它生成它们以便被提取。但它没有成功：

https://foo.foofoo.com/foo/foo/foo/foo-a-foo-foofoo-foo-foo-foofoo-foo-foofoo
https://foo.foofoo.com/foo/00550000006yDdKAAU/foofoo/foo-foo-foo-foofoo-foo-foo
https://foo.foofoo.com/foo/foo/foo/foofoo-foo-foofoo-foo-foo/foofoo-a-foo-foofoo-foofoo?foo_id=foo-fi-and-foo-fafoo-fa

只有一些这样的网址（不是全部！只有少数！）被获取：

https://foo.foofoo.com/en/foofoo

这是我的 regex-urlfilter 文件，我只通过它获取英文网页：

-^(file|ftp|mailto):
-^https?://foo.foofoo.com/(de|ja|fr|es-MX|pt-BR)
+^https?://foo.foofoo.com

请问有什么绝妙的主意吗？

【问题讨论】：

你使用的深度是多少？
试试这个-^(?:https?:\/\/)?foo\.foofoo\.com\/(?:de|ja|fr|es-MX|pt-BR) +^(?:https?:\/\/)?foo\.foofoo\.com(?:\/.*|.*)
还是一样。但是我觉得你的文笔比我的好。作为深度，它是 10。

标签： java regex filter web-crawler nutch

【解决方案1】：

为我的用例删除一些无用的插件后，一切都恢复正常。这些插件是 nutch-extensionpoints、parse-text 和 query(basic|site|url)。

【讨论】：

酷。对我来说，我有这个和它的工作也许你不需要删除那么多protocol-httpclient|urlfilter-regex|parse-(html|tika|metatags)|index-(basic|anchor|metadata|more|tika)|query-(basic|site|url)|summary-basic|scoring-opic|indexer-solr|urlnormalizer-(pass|regex|basic)
我明白了。谢谢@Quent！ :)