【问题标题】:org.apache.hadoop.mapred.InvalidInputException: Input path does not existorg.apache.hadoop.mapred.InvalidInputException:输入路径不存在
【发布时间】:2025-12-14 21:30:01
【问题描述】:

我已经用 Hadoop 的单节点设置了 Apache Nutch。当我执行抓取命令时,它开始抓取。但是几分钟后会抛出异常。

原因:org.apache.hadoop.mapred.InvalidInputException:输入路径确实 不存在:(请参考图1)

这是根据异常的无效路径 hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate

其实hdfs中没有这样的路径。

这个drwxrwxrwx是怎么来的?

在 hdfs 中我可以看到以下路径

hdfs://localhost:54310/user/duleendra/TestCrawl/segments/20150506222506/crawl_generate

(请同时参考图2)。

我错过了什么吗?

谢谢

杜伦德拉

【问题讨论】:

  • drwxrwxrwx其实是文件夹的权限
  • 是的,但不知道这个路径是怎么来的 drwxrwxrwx hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate
  • 似乎在 shell 脚本中调用 ls -al 但预期 ls 输出并解释结果
  • 你的意思是 crawl.sh 脚本?
  • 我不知道,是生成路径的脚本:)

标签: hadoop nutch


【解决方案1】:

我相信这是 OSX 和 FreeBsd 等基于 Unix 的系统中的一个错误。 Nutch 的爬行在他们身上不起作用。试试 ubuntu。

【讨论】:

    最近更新 更多