【发布时间】:2025-12-14 21:30:01
【问题描述】:
我已经用 Hadoop 的单节点设置了 Apache Nutch。当我执行抓取命令时,它开始抓取。但是几分钟后会抛出异常。
原因:org.apache.hadoop.mapred.InvalidInputException:输入路径确实 不存在:(请参考图1)
这是根据异常的无效路径 hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate
其实hdfs中没有这样的路径。
这个drwxrwxrwx是怎么来的?
在 hdfs 中我可以看到以下路径
hdfs://localhost:54310/user/duleendra/TestCrawl/segments/20150506222506/crawl_generate
(请同时参考图2)。
我错过了什么吗?
谢谢
杜伦德拉
【问题讨论】:
-
drwxrwxrwx其实是文件夹的权限
-
是的,但不知道这个路径是怎么来的 drwxrwxrwx hdfs://localhost:54310/user/duleendra/TestCrawl/segments/drwxrwxrwx/crawl_generate
-
似乎在 shell 脚本中调用
ls -al但预期ls输出并解释结果 -
你的意思是 crawl.sh 脚本?
-
我不知道,是生成路径的脚本:)