【发布时间】:2018-06-06 13:44:10
【问题描述】:
我在 Microsoft Windows 7 上使用spark 2.2 version。我想将 csv 文件加载到一个变量中,以便稍后执行 SQL 相关操作,但无法执行此操作。我从this 链接中提到了接受的答案,但没有用。我按照以下步骤创建SparkContext 对象和SQLContext 对象:
import org.apache.spark.SparkContext
import org.apache.spark.SparkConf
val sc=SparkContext.getOrCreate() // Creating spark context object
val sqlContext = new org.apache.spark.sql.SQLContext(sc) // Creating SQL object for query related tasks
对象已成功创建,但是当我执行下面的代码时,它会引发无法在此处发布的错误。
val df = sqlContext.read.format("csv").option("header", "true").load("D://ResourceData.csv")
当我尝试像df.show(2) 这样的东西时,它说 df 没有找到。我尝试了从附加链接加载 CSV 的 databricks 解决方案。它下载包但不加载 csv 文件。那么我该如何纠正我的问题呢?在此先感谢:)
【问题讨论】:
-
spark 2.x 有 SparkSession 作为入口点..
-
先生,我可以创建对象。我试过玩 sc 对象,它工作得很好
-
正如@undefined_variable 建议的那样,您可以使用
SparkSession来执行这些操作。如果您正在运行spark-shell,您将在spark变量中获得SparkSession。 -
我已经尝试过了:import org.apache.spark.sql.SparkSession val spark = SparkSession.builder。 master("local") .appName("spark session 示例") .getOrCreate() @VipingGS
-
你在使用 spark-shell 吗?
标签: scala csv apache-spark apache-spark-sql