【发布时间】:2014-09-22 11:29:06
【问题描述】:
我正在使用 apache nutch 将数据存储在使用 hdfs 作为其文件系统的 hbase 中。我想知道它存储在 hbase 中的哪些文档等。如何从 hbase 中读取该数据,例如一些pdf存储在hbase中。我想读它。我会怎么做。
请指导我?
【问题讨论】:
我正在使用 apache nutch 将数据存储在使用 hdfs 作为其文件系统的 hbase 中。我想知道它存储在 hbase 中的哪些文档等。如何从 hbase 中读取该数据,例如一些pdf存储在hbase中。我想读它。我会怎么做。
请指导我?
【问题讨论】:
网页和文档存储为一行。如果您知道您的文档链接,您可以在 hbase shell 或其他工具(hive pig 等)上获取它。Nutch 将 URL 存储为反向 URL。
例如“http://bar.foo.com:8983/to/index.html?a=b”变成了“com.foo.bar:8983:http/to/index.html?a=b”。
关于Hbase Shell的信息http://wiki.apache.org/hadoop/Hbase/Shell
【讨论】: