【发布时间】:2017-07-14 02:26:02
【问题描述】:
我正在尝试读取基于时间戳的文件夹结构。如果我传递时间戳,那么它会根据输入路径读取文件夹结构。同样,我需要创建一个基于时间戳的文件夹结构来编写输出路径。
This is my input path
/Desktop/user/outFiles6/test1/2017/06/09/15
Similarly my output path should be created.
我试过这样
def buildPaths(date_key: DateTime, sc:SparkContext): (Path,Path) = {
val (year, month, day,hour) = (date_key.toString("YYYY"), date_key.toString("MM"), date_key.toString("dd"),date_key.toString("HH"))
val inpath_tag = new Path(
makePath("/", Some("") :: Some("/home/user/Desktop/SparK-op/") :: Some(year) :: Some(month) :: Some(day) :: Some(hour) :: Nil)
)
val outpath = new Path(
makePath("/", Some("") :: Some("/home/user/Desktop/SparK-op/") :: Some(year) :: Some(month) :: Some(day) :: Some(hour) :: Nil)
)
//queryHDFS(sc, inpath_tag);
//queryHDFS(sc, inpath_sens);
(inpath_tag, outpath)
}
def makePath(char:String, components: List[Option[String]]) = components.flatten mkString char;
}
}
我不知道如何继续。任何构建逻辑的帮助将不胜感激。
【问题讨论】:
-
您遇到的具体问题是什么?
Path来自哪里?例如。如果是java.nio.file.Path,则不能用new创建,应使用Paths.get。 -
它的hadoop路径...
标签: scala apache-spark