【发布时间】:2019-12-23 04:02:58
【问题描述】:
我使用 sqoop 将表从 mysql 导入到 hdfs 位置 /user/cloudera/table1,现在应该使用什么命令将该表加载到 pyspark 代码中。我只是在编写简单的代码,如下所示。我使用的是 cloudera CDH 5.13。谢谢
from pyspark import SparkContext, SparkConf
if __name__ == "__main__":
# create Spark context with Spark configuration
conf = SparkConf().setAppName("Spark Count")
sc = SparkContext(conf=conf)
data = code here to import table from hdfs
【问题讨论】:
-
你的hdfs文件是什么格式的?
-
我刚刚使用了命令 --> sqoop import --connect jdbc:mysql://quickstart.cloudera:3306/database1 --username root --password cloudera --table customers
-
你能看到hdfs中文件的格式吗?如果是 avro/parquet/csv/txt?
-
你能告诉我如何检查吗..谢谢你的帮助:)
-
使用
hdfs dfs -ls,找到你的文件并查看格式