【发布时间】:2019-08-05 21:46:25
【问题描述】:
我有一个文本文件,我试图将其转换为 parquet 文件,然后通过将其写入 hdfs 路径将其加载到配置单元表中。一切都运行了,但表格没有显示任何值。
这是我的代码:
#Create my table
spark.sql("create external table if not exists table1 ( c0 string, c1 string, c2 string) STORED AS parquet LOCATION 'hdfs://hadoop_data/hive/table1'")
hdfs="hdfs://hadoop_data/hive/table1/output.parquet"
#Read my data file
e=spark.read.text("/home/path/sample_txt_files/sample5.txt")
#Write it to hdfs table as a parquet file
e.write.parquet("hdfs")
一切都运行了,但是当我通过 select * from table1 检查表的内容时,没有任何值:
sample5.txt 文件中的内容如下:
ID,Name,Age
1,James,15
关于为什么表格中没有显示数据的任何想法或建议?
【问题讨论】:
-
您是否尝试运行不带引号的最后一个命令?看来您实际上是在传递“hdfs”而不是字符串 sdfs(完整路径)。
-
好吧,它正在读取 parquet 目录,而不是 parquet 文件夹中的成功文件。你知道如何通过它并阅读所有成功的 parquet 文件吗?
-
我也试过不带引号。
-
你能试试这个
e.write.parquet("hdfs://hadoop_data/hive/table1/output.parquet")吗?
标签: apache-spark hive pyspark