【发布时间】:2012-05-12 00:19:54
【问题描述】:
我正在使用 MAPI 工具(它的 microsoft lib 和 .NET),然后使用 apache TIKA 库来处理和提取 pst交换服务器,不可扩展。
如何使用 MR 方式处理/提取 pst ... 是否有任何可用的 java 工具、库可以在我的 MR 工作中使用。任何帮助都会很棒。
Jpst Lib 内部使用:PstFile pstFile = new PstFile(java.io.File)
问题在于 Hadoop API 没有任何接近 java.io.File 的东西。
以下选项总是存在但效率不高:
File tempFile = File.createTempFile("myfile", ".tmp");
fs.moveToLocalFile(new Path (<HDFS pst path>) , new Path(tempFile.getAbsolutePath()) );
PstFile pstFile = new PstFile(tempFile);
【问题讨论】:
-
要以 Map/Reduce 方式执行此操作,您需要能够将 PST 文件拆分为小块,以便各个节点可以处理它们的部分。我不确定 PST 文件格式是否支持?
标签: hadoop mapreduce mapi apache-tika pst