【发布时间】:2019-12-23 10:29:16
【问题描述】:
我正在使用SparkSQL 和下面的CTAS 命令创建表。
CREATE TABLE TBL2
STORED AS ORC
LOCATION "dbfs:/loc"
TBLPROPERTIES("orc.compress" = "SNAPPY")
AS
SELECT Col1
, ColNext2
, ColNext3
, ...
FROM TBL1
之后,我正在使用下面的PySpark 代码读取位于新创建位置 (TBL2) 之上的文件。但是,下面的data frame 仅使用lowercase 中的所有列名创建。而预期结果在camel case 中,就像我在上面对CTAS 所做的那样。
df = spark.read.format('ORC') \
.option('inferSchema',True) \
.option('header',True) \
.load('dbfs:/loc')
data_frame.show()
实际输出:
col1 colnext2 colnext3 ...
预期输出:
Col1 ColNext2 ColNext2 ...
【问题讨论】:
标签: apache-spark pyspark apache-spark-sql databricks